課程簡介
【課程優(yōu)勢】
本課程的優(yōu)勢就是:
1、整個培訓(xùn)過程老師帶著學(xué)員進行全程上機操作,因此要求每個學(xué)員帶筆記本電腦。
2、整個過程老師帶著學(xué)員進行全程上機操作外,學(xué)員會進行全程實戰(zhàn)演練,并且在演練過程中會以實際項目案例為主。在演練過程中老師會進行不斷的指導(dǎo),使培訓(xùn)課程真正落地。
【主講老師】
劉 剛:
原阿里集團-阿里云研發(fā)中心大數(shù)據(jù)資深技術(shù)經(jīng)理, 大數(shù)據(jù)專家,國內(nèi)資深大數(shù)據(jù)實戰(zhàn)專家。
劉老師現(xiàn)就職于某國際跨國專業(yè)大數(shù)據(jù)公司中國研發(fā)中心任高級技術(shù)經(jīng)理,大中華區(qū)大數(shù)據(jù)總負責人。目前主要負責該國際跨國專業(yè)大數(shù)據(jù)公司在大中華區(qū)各大商業(yè)銀行、電信等領(lǐng)域大數(shù)據(jù)系統(tǒng)的研發(fā)與現(xiàn)場實踐。
劉老師同時是國內(nèi)資深的、最早的一批大數(shù)據(jù)技術(shù)專家、虛擬
化專家,在進入阿里之前曾就職于高德等知名IT企業(yè),擔任Hadoop高級工程師。對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB、OpenStack等Hadoop生態(tài)系統(tǒng)中的技術(shù)進行了多年的深入的研究,更主要的是這些技術(shù)在大量的實際項目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運維方面積累了豐富項目實施經(jīng)驗。
劉老師近年主持或參與的主要典型項目有:上海電信網(wǎng)絡(luò)優(yōu)化、中國移動廣東移動省公司請賬單系統(tǒng)和廣州移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺、中國光大銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運營商全國用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(Web Game Daas)平臺項目等等。
【課程大綱】
“Hadoop數(shù)據(jù)分析與挖掘實戰(zhàn)”課程內(nèi)容
課程模塊 | 課程主題 | 主要內(nèi)容 | 案例和演示 |
模塊一 | Hadoop組件詳解 | 1、Hadoop HDFS 基本結(jié)構(gòu) 2、Hadoop HDFS 副本存放策略 3、Hadoop NameNode 詳解 4、HadoopSecondaryNameNode 詳解 5、Hadoop DataNode 詳解 6、Hadoop JobTracker 詳解 7、Hadoop TaskTracker 詳解 8、Yarn資源管理系統(tǒng)詳解 9、Resourcemanager詳解 10、NodeManager詳解 | 1、Hadoop Mapper類核心代碼 2、Hadoop Reduce類核心代碼 3、Hadoop 核心代碼 |
模塊二 |
數(shù)據(jù)分析的算法詳解 | 1、K-means算法詳解 2、線性回歸詳解 3、機器學(xué)習(xí)詳解 4、Canopy算法詳解 5、貝葉斯算法詳解 |
|
模塊三 | Hive實戰(zhàn)(數(shù)據(jù)分析) | 1、Hive (1)Hive的負載均衡搭建 (2)Hive的訪問方式 (3)Hive的元數(shù)據(jù)存儲到Mysql (4)Hive的數(shù)據(jù)類型 (5)Hive表的創(chuàng)建 (6)Hive加載數(shù)據(jù) (7)Hive的CLI操作介紹 2、hive數(shù)據(jù)定義 (1)內(nèi)部表和外部表 (2)表的分區(qū) (3)刪除表 (4)修改表 (5)查詢語句 (6)where語句 3、Hive高級查詢語句 (1)group by操作 (2)Join操作 (3)Order by和Sort by (4)Union all (5)索引 4、Hive的存儲類型和復(fù)合數(shù)據(jù)類型 (1)TextFile (2)Sequence File (3)RCFile (4)Hive的自定輸入格式 (5)Array (6)Map (7)Struct 5、Hive的內(nèi)置函數(shù)和自定義UDF和UDAF實戰(zhàn) 6、Hive的調(diào)優(yōu) (1)explain (2)隊列設(shè)置 (3)Join優(yōu)化 (4)本地模式和并行執(zhí)行 (5)設(shè)置Mapper和Reducer的個數(shù) (6)JVM重用 (7)索引 (8)動態(tài)分區(qū)調(diào)整 (9)推測執(zhí)行 (10)Hive的debug調(diào)試 7、hive的安全 (1)Hive的hadoop安全的整合 (2)使用Hive進行驗證 (3)Hive的權(quán)限管理 (4)分區(qū)級別的權(quán)限 (5)自定授權(quán) 8、Hive的案例實戰(zhàn) (1)nginx日志實戰(zhàn) (2)某公司的Hive項目 | 1、nginx日志實戰(zhàn) 2、某公司的Hive項目 |
模塊四 | Mahout實戰(zhàn)(數(shù)據(jù)挖掘) | 1、Mahout安裝測試 (2)基于項目的推薦器 | u |
模塊五 | 數(shù)據(jù)挖掘在電信的案例 | 1、基站數(shù)據(jù)分析 2、人流的動態(tài)分析 3、拉鏈算法的案例詳解 4、套餐的更改軌跡分析 5、客戶中心的數(shù)據(jù)情感分析和挖掘 6、用戶的通話記錄分析 7、套餐的營銷分析 8、分析流式的用戶和挖掘潛在的客戶 | u |
模塊六 | 數(shù)據(jù)挖掘在銀行的案例 | 1、財務(wù)分析 2、客戶價值&風(fēng)險定價 3、巴塞爾3 &信用風(fēng)險 4、績效管理 5、客戶關(guān)系管理(CRM) 6、客戶訪問分析 7、流失路徑 8、購買路徑 9、欺詐路徑 10、多渠道營銷 11、欺詐 12、數(shù)據(jù)挖掘&原型設(shè)計 13、營銷歸因 14、投訴&銷售合規(guī) 15、情感分析 | u |
“Spark實戰(zhàn)”課程內(nèi)容
模 塊 | 培訓(xùn)大綱 |
Spark 運行架構(gòu)和解析 | 1、Spark的運行架構(gòu) 2、基本術(shù)語 3、運行架構(gòu) 4、Spark on Standalone運行過程 5、Spark on YARN 運行過程 6、Spark運行實例解析 7、Spark on Standalone實例解析 8、Spark on YARN實例解析 |
Spark 監(jiān)控和調(diào)優(yōu) | 1、Spark的監(jiān)控 2、Spark調(diào)優(yōu) |
Spark 編程模型和解析 | 1、Spark的編程模型 2、Spark編程模型解析 3、RDD的特點、操作、依賴關(guān)系 4、Spark應(yīng)用程序的配置 |
Spark scala編程 | 1、Scala基本語法 2、Scala開發(fā)環(huán)境搭建 3、Scala開發(fā)Spark應(yīng)用程序 |
Spark Streaming原理和實踐 | 1、Spark Streaming原理 2、Spark流式處理架構(gòu) 3、DStream的特點 4、Dstream的操作和RDD的區(qū)別 5、Spark Streaming的優(yōu)化 6、Spark Streaming實例 7、文本實例 8、網(wǎng)絡(luò)數(shù)據(jù)處理 |
Spark SQL 原理和實踐 | 1、Spark SQL原理 2、Spark SQL的Catalyst優(yōu)化器 3、Spark SQL內(nèi)核 4、Spark SQL和Hive 5、Spark SQL的實例和編程 6、Spark SQL的實例操作demo 7、Spark SQL的編程 |
Spark 源碼研讀 | 1、Spark源碼研讀 2、Spark源碼下載和研讀環(huán)境搭建 3、Spark Core介紹 4、SparkContext 5、Executor 6、Deploy 7、RDD和Storage 8、Scheduler和Task 9、Spark Examples |
Spark應(yīng)用 案例實戰(zhàn) | 1、基于spark日志分析 2、個性化推薦系統(tǒng):帶你揭開其神秘面紗 3、在線投放引擎 4、揭開淘寶點擊推薦系統(tǒng)的神秘面紗 5、京東商城數(shù)據(jù)服務(wù)架構(gòu)—實時計算平臺 |