培訓搜索引擎

Hadoop大數(shù)據解決方案開發(fā)技術

內訓講師:傅一航 需要此內訓課程請聯(lián)系中華企管培訓網
Hadoop大數(shù)據解決方案開發(fā)技術內訓基本信息:
傅一航
傅一航
(擅長:市場營銷 )

內訓時長:2-5天

邀請傅一航 給傅一航留言

內訓咨詢熱線:010-68630945; 88682348

內訓課程大綱
第一部分:Hadoop的基本框架
1、大數(shù)據時代面臨的問題
2、當前解決大數(shù)據的技術方案
3、Hadoop架構和云計算
4、Hadoop簡史及安裝部署
5、Hadoop設計理念和生態(tài)系統(tǒng)
 
第二部分:HDFS分布式文件系統(tǒng):海量數(shù)據存儲的搖籃
1、HDFS的設計目標
2、HDFS的基本架構
NameNode名稱節(jié)點
SecondaryNameNode第二名稱節(jié)點
DataNode數(shù)據節(jié)點
3、HDFS的存儲模型
數(shù)據塊存儲
元數(shù)據存儲(空間鏡像與編輯日志)
多副本存儲
4、多副本放置策略
5、多數(shù)據節(jié)點管理機制與交互過程
6、文件系統(tǒng)操作與管理
讀文件過程
寫文件過程(數(shù)據流管道)
7、數(shù)據完整性機制
數(shù)據校驗和
數(shù)據完整性掃描線程
元數(shù)據備份與合并
8、數(shù)據可靠性設計
安全模式(數(shù)據塊與節(jié)點映射關系管理)
心跳檢測機制(節(jié)點失效管理)
租約機制(多線程并發(fā)控制)
9、其它
HDFS的安全機制
負載均衡
文件壓縮
10、操作接口與編程接口
HDFS Shell
HDFS Commands
WebHDFS REST API
HDFS Java API
演練:HDFS文件操作命令
演練:HDFS編程示例
 
第三部分:MapReduce分布式計算系統(tǒng):海量數(shù)據處理的利器
1、MapReduce的三層設計理念
分布治之的設計思想(Map與Reduce)
數(shù)據處理引擎(編程模型)
運行時環(huán)境(任務調度與執(zhí)行)
2、MapReduce的基本架構
JobTracker作業(yè)跟蹤器
TaskTracker任務跟蹤器
MapReduce與HDFS的部署關系
3、MapReduce編程模型概述
編程接口介紹
Hadoop工作流實現(xiàn)原理
4、MapReduce作業(yè)調度機制
MapReduce作業(yè)生命周期
作業(yè)調度策略
靜態(tài)資源管理方案
5、數(shù)據并行處理機制(五步驟)
Input階段實現(xiàn)
Map階段實現(xiàn)
Shuffle階段實現(xiàn)
Reduce階段實現(xiàn)
Output階段
6、MapReduce容錯機制
任務失敗與重新嘗試
節(jié)點失效與重調度
單點故障
7、MapReduce性能優(yōu)化
優(yōu)化方向與思路
磁盤IO性能優(yōu)化
分片優(yōu)化
線程數(shù)量優(yōu)化
內存優(yōu)化
壓縮優(yōu)化
8、MapReduce操作接口
Job Shell
Web UI
案例演練:MapReduce編程示例
9、YARN:下一代通用資源管理系統(tǒng)
MRv1的局限性
YARN基本框架
NN HA:解決單點故障
HDFS Federation:解決擴展性問題
 
第四部分:HBase非關系型數(shù)據庫:海量數(shù)據的黎明
1、HBase的使用場景
2、HBase的基本架構
Zookeeper分布式協(xié)調服務器
Master主控服務器
Region Server區(qū)域服務器
3、HBase的數(shù)據模型
HBase的表結構
行鍵、列鍵、時間戳
4、HBase的存儲模型
基本單位Region
存儲格式HFile
5、數(shù)據分裂機制Split
6、數(shù)據合并機制Compaction
minor compaction
major compaction
7、HLog寫前日志
8、數(shù)據庫讀寫操作
數(shù)據庫寫入
數(shù)據庫讀取
三次尋址
9、HBase操作接口
Native Java API
HBase Shell
批量加載工具
HiveQL操作
10、HBase性能優(yōu)化
寫速度優(yōu)化
讀速度優(yōu)化
11、HBase集群監(jiān)控與管理
案例演練:HBase命令操作實例
 
第五部分:Hive分布式數(shù)據倉庫:高級的編程語言
1、Hive是什么
2、Hive與關系數(shù)據庫的區(qū)別
3、Hive系統(tǒng)架構
用戶接口層
元數(shù)據存儲層
驅動層
4、Hive常用服務
5、Hive元數(shù)據的三種部署模式
6、Hive的命名空間
7、Hive數(shù)據類型與存儲格式
數(shù)據類型
TextFile/SequenceFile/RCFile
8、Hive的數(shù)據模型
管理表
外部表
分區(qū)表
桶表
9、HQL語言命令實例
DDL數(shù)據定義語言
DML數(shù)據操作語言
QUERY數(shù)據查詢語言
10、Hive自定義函數(shù)
基本函數(shù)(UDF)
聚合函數(shù)(UDAF)
表生成函數(shù)(UDTF)
11、Hive性能優(yōu)化
動態(tài)分區(qū)
壓縮
索引
JVM重用
案例演練:Hive命令操作實例
 
第六部分:Sqoop數(shù)據交互工具:Hadoop與傳統(tǒng)數(shù)據庫的橋梁
1、Sqoop是什么
2、Sqoop的架構和功能
Sqoop1架構
Sqoop2架構
3、數(shù)據雙向交換
數(shù)據導入過程
數(shù)據導出過程
4、數(shù)據導入工具與命令介紹
案例演練:Sqoop數(shù)據導入/導出實際操作
 
第七部分:Pig數(shù)據流處理引擎:數(shù)據腳本語言
1、Pig介紹
2、命令行交互工具Grunt
3、Pig數(shù)據類型
4、Pig Latin腳本語言介紹
基礎知識
輸入和輸出
關系操作
調用靜態(tài)Java函數(shù)
5、Pig Latin高級應用
6、開發(fā)與測試Pig Latin腳本
開發(fā)工具
任務狀態(tài)監(jiān)控
調試技巧
7、腳本性能優(yōu)化
8、用戶自定義函數(shù)UDF
案例演練:Pig Latin腳本編寫、測試與運行操作
 
結束:課程總結與問題答疑。

講師 傅一航 介紹
傅一航,華為系大數(shù)據專家。
傅一航,男,計算機軟件與理論碩士研究生(研究方向:數(shù)據挖掘、搜索引擎)。在華為工作十年,數(shù)篇國家專利,曾在英國、日本、荷蘭等國做項目,對歐洲、日本的電信市場有比較深的了解。
傅老師專注于大數(shù)據分析與挖掘等應用技術,以及大數(shù)據系統(tǒng)部署解決方案。旨在將大數(shù)據的數(shù)據分析、數(shù)據挖掘、數(shù)據建模應用于行業(yè)及商業(yè)領域,解決行業(yè)實際的問題。將大數(shù)據應用于運營決策,幫助企業(yè)提升運營決策能力;應用于市場營銷,通過大數(shù)據營銷,解決營銷中的用戶群細分,產品定位,精準營銷,精準促銷等實際問題,提升營銷效果,節(jié)省營銷費用,以及市場預測、用戶行為預測等。
傅老師目前致力于將大數(shù)據技術應用于通信、金融、航空、電商、互聯(lián)網等領域。傅老師的課程最大特色:實戰(zhàn)性強!實現(xiàn)“業(yè)務問題+分析思路+分析方法/分析模型+分析工具+結果應用”融為一體。即,結合清晰的業(yè)務場景(明確目的),分解為具體的數(shù)據問題(分析思路),選擇最合適的方法(分析方法),深入淺出的理論講解(分析模型),使用簡單實用的工具操作(分析工具),實現(xiàn)分析結果到業(yè)務策略的落地。
獲得國家專利:
1.CN1925642:對集群用戶進行處理的方法和集群用戶處理系統(tǒng)
2.CN101114999A:數(shù)據發(fā)送控制方法及數(shù)據傳輸設備
3.CN101119183A:重傳控制方法及傳輸設備
4.CN101483847A:實現(xiàn)策略控制的方法、裝置及系統(tǒng)
5.CN101605359B:一種切換過程中轉發(fā)數(shù)據的方法、無線實體和基站
 
論文:
1.基于統(tǒng)計的無詞典分詞方法
2.文本的自動分類
3.基于Internet的智能信息檢索技術研究

上一篇:數(shù)據分析與數(shù)據挖掘之SPSS工具入門與提高
下一篇:“數(shù)”說營銷 -----大數(shù)據營銷實戰(zhàn)

培訓現(xiàn)場