&

Hadoop與Spark大數據開發(fā)與案例分析高級工程師實戰(zhàn)培訓班（杭州，1月25-29日）

2017/11/30 10:51:34 來源：北京曼頓企業(yè)管理咨詢有限公司 [加入收藏]

Hadoop與Spark大數據開發(fā)與案例分析高級工程師實戰(zhàn)培訓班（杭州，1月25-29日）

【舉辦單位】北京曼頓培訓網 www.mdpxb.com 中國培訓資訊網 www.e71edu.com

【咨詢電話】4006820825 010-56133998 13810210257

【培訓日期】2018年1月25-29日

【培訓地點】杭州

【培訓對象】各地政府，院校云計算物聯(lián)網產業(yè)相關負責人，各類 IT/軟件企業(yè)和研發(fā)機構的軟件架構師、軟件設計師、程序員、技術總監(jiān)、數據挖掘負責人、數據挖掘開發(fā)工程師等

【課程背景】

為貫徹落實黨中央國務院“十三五”規(guī)劃指導精神，實施網絡強國戰(zhàn)略，加快建設數字中國;構建高效信息網絡，推進物聯(lián)網發(fā)展;實施“互聯(lián)網+”行動計劃，促進多領域融合發(fā)展;實施國家大數據戰(zhàn)略，加快政府數據開放;加強數據安全包含，全面保障信息系統(tǒng)安全;推進軍民融合發(fā)展立法。要實施國家大數據戰(zhàn)略，把大數據作為基礎性戰(zhàn)略資源，全面實施促進大數據發(fā)展行動，加快推動數據資源共享開放和開發(fā)應用，助力產業(yè)轉型升級和社會治理創(chuàng)新。加快政府數據開放共享，促進大數據產業(yè)健康發(fā)展。

現(xiàn)如今，大數據的應用并不僅存在于一些“理工類領域”，它已經滲透到我們生活的方方面面，將來，大數據在能源、金融、電信、汽車、消費等大多數行業(yè)都有用武之地，行業(yè)發(fā)展?jié)摿薮�。去年，國內數據�?chuàng)業(yè)已是風起云涌，其實，2016才是真正意義上的大數據元年。據IDC預測，到2020年，大數據分析技術將成為所有國家經濟增長的關鍵動力。大數據分析及其相關的市場的復合年增長率將達到26.4%，在2018年全球將發(fā)展到415億美元的規(guī)模。同時，IDC認為，到2020年大數據分析技術將成為所有國家經濟增長的關鍵動力。然而大數據架構最火熱的莫過于Hadoop，Spark和Storm這三種

【課程目標】

1、了解Hadoop與Spark的歷史及目前發(fā)展的現(xiàn)狀、以及Hadoop與Spark的技術特點，從而把握分布式計算框架及未來發(fā)展方向，在大數據時代能為企業(yè)的技術選型及架構設計提供決策參考。

2、全面掌握Hadoop與Spark的架構原理和使用場景，并通過貫穿課程的項目進行實戰(zhàn)鍛煉，從而熟練使用Hadoop進行MapReduce程序開發(fā)。課程還涵蓋了分布式計算領域的常用算法介紹，幫助學員為企業(yè)在利用大數據方面體現(xiàn)自身價值。

3、深入理解Hadoop與Spark技術架構,對Hadoop與Spark運作機制有清晰全面的認識，可以獨立規(guī)劃及部署生產環(huán)境的Hadoop與Spark集群，掌握Hadoop與Spark基本運維思路和方法，對Hadoop與Spark集群進行管理和優(yōu)化。

【培訓特色】

■注重應用：分析國內實際情況，結合國際、國內成功經驗。采用實戰(zhàn)的項目，讓學員在短時間內掌握Hadoop與Spark的搭建與配置。并進行高效的大數據清洗和分析。

■形式靈活：互動課堂、免費技術沙龍、提供云計算項目建設咨詢、大數據Hadoop平臺的搭建。

【課程大綱】

模塊一 Hadoop在云計算技術的作用和地位

■傳統(tǒng)大規(guī)模系統(tǒng)存在的問題

■Hadoop概述

■Hadoop分布式文件系統(tǒng)

■MapReduce工作原理

■Hadoop集群剖析

■Hadoop生態(tài)系統(tǒng)對一種新的解決方案的需求

■Hadoop的行業(yè)應用案例分析

■Hadoop在云計算和大數據的位置和關系

■數據開放,數據云服務平臺(DAAS)時代

■Hadoop平臺在數據云平臺(DAAS)上的天然優(yōu)勢

■數據云平臺(DAAS 平臺)組成部分

■互聯(lián)網公共數據大云(DAAS)案例

■Hadoop構建構建游戲云(Web Game Daas)平臺

模塊二 Hadoop生態(tài)系統(tǒng)介紹和演示

■Hadoop HDFS 和 MapReduce

■Hadoop數據庫之HBase

■Hadoop數據倉庫之Hive

■Hadoop數據處理腳本Pig

■Hadoop數據接口Sqoop和Flume，Scribe DataX

■Hadoop工作流引擎 Oozie

■運用Hadoop自下而上構建大規(guī)模企業(yè)數據倉庫

■暴風影音數據倉庫實戰(zhàn)解析

模塊三 Hadoop組件詳解

■Hadoop HDFS 基本結構

■Hadoop HDFS 副本存放策略

■Hadoop NameNode 詳解

■HadoopSecondaryNameNode 詳解

■Hadoop DataNode 詳解

■Hadoop JobTracker 詳解

■Hadoop TaskTracker 詳解

■Hadoop Mapper類核心代碼

■Hadoop Reduce類核心代碼

■Hadoop 核心代碼

模塊四 Hadoop安裝和部署

■Hadoop系統(tǒng)模塊組件概述

■Hadoop試驗集群的部署結構

■Hadoop 安裝依賴關系

■Hadoop 生產環(huán)境的部署結構

■Hadoop集群部署

■Hadoop 高可用配置方法

■Hadoop 集群簡單測試方法

■Hadoop 集群異常Debug方法

■Hadoop安裝部署實驗

■Red hat Linux基礎環(huán)境搭建

■Hadoop 單機系統(tǒng)版本安裝配置

■Hadoop 集群系統(tǒng)版本安裝和啟動配置

■使用 Hadoop MapReduce Streaming 快速測試系統(tǒng)

■Hadoopcore-site，hdfs-site，mapred-site 配置詳解

模塊五 Hadoop集群規(guī)劃

■Hadoop 集群內存要求

■Hadoop集群磁盤分區(qū)

■集群和網絡拓撲要求

■集群軟件的端口配置

■針對NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同組件需求推薦服務器配置

模塊六 MapReduce 算法原理

■Hadoop MapReduce 算法的原理和優(yōu)化思想

■靈活運用MapReduce 實現(xiàn)算法

■運用MapReduce 構建數據庫算法

■Select Sort GrougBy Sum Count

■Join 新進流失算法

■使用 Y-Smart 快速轉換SQL 為MapReduce 代碼

模塊七編寫MapReduce高級程序

■使用 Hadoop MapReduce Streaming 編程

■MapReduce流程

■剖析一個MapReduce程序

■基本MapReduceAPI概念

■驅動代碼 Mapper、Reducer

■Hadoop流

■API 使用Eclipse進行快速開發(fā)

■新MapReduce API

■MapReduce的優(yōu)化

■MapReduce的任務調度

■MapReduce編程實戰(zhàn)

■如何利用其他Hadoop相關技術，包括Apache Hive， Apache Pig，Sqoop和Oozie等

■滿足解決實際數據分析問題的高級Hadoop API

■Hadoop Streaming 和 Java MapReduce Api 差異。

■MapReduce 實現(xiàn)數據庫功能

■利用Combiners來減少中間數據

■編寫Partitioner來優(yōu)化負載平衡

■直接訪問Hadoop分布式文件系統(tǒng)（HDFS）

■Hadoop的join操作

■輔助排序在Reducer方的合并

■定制Writables和WritableComparables

■使用SequenceFiles和Avro文件保存二進制數據

■創(chuàng)建InputFormats OutputFormats

■Hadoop的二次排序

■Hadoop的海量日志分析

■在Map方的合并

模塊八集成Hadoop到現(xiàn)有工作流

及Hadoop API深入探討

■存儲系統(tǒng)

■利用Sqoop從關系型數據庫系統(tǒng)中導入數據到Hadoop

■利用Flume導入實時數據到Hadoop

■ToolRunner介紹、使用MRUnit進行測試

■使用Configure和Close方法來進行Map/Reduce設置和關閉

■使用FuseDFS和Hadoop訪問HDFS

■使用分布式緩存（Distributed Cache）

■直接訪問Hadoop分布式文件系統(tǒng)（HDFS）

■利用Combiners來減少中間數據

■編寫Partitioner來優(yōu)化負載平衡

模塊九使用Hive和Pig開發(fā)及技巧

■Hive和Pig基礎

■Hive的作用和原理說明

■Hadoop倉庫和傳統(tǒng)數據倉庫的協(xié)作關系

■Hadoop/Hive倉庫數據數據流

■Hive 部署和安裝

■Hive Cli 的基本用法

■HQL基本語法

■運用Pig 過濾用戶數據

■使用JDBC 連接Hive進行查詢和分析

■使用正則表達式加載數據

■HQL高級語法

■編寫UDF函數

■編寫UDAF自定義函數

■基于Hive腳本內嵌Streaming 編程

模塊十 Hbase安裝和使用

■Hbase 安裝部署

■Hbase原理和結構

■Hbase 運維和管理

■使用Hbase+Hive 提供 OLAP SQL查詢能力

■使用Hbase+Phoenix提供 OLTP SQL能力

■基于Hbase 的時間序列數據庫 OpenTsDb 結構解析

模塊十一 Hadoop2.0 集群探索

■Hadoop2.0 HDFS 原理

■Hadoop2.0 Yarn 原理

■Hadoop2.0 生態(tài)系統(tǒng)

■基于Hadoop2.0 構建分布式系統(tǒng)

模塊十二 Hadoop企業(yè)級別案例解析

■Hadoop 結構化數據案例

■Hadoop 非結構化案例

■Hbase 數據庫案例

■Hadoop 視頻分析案例

■利用大數據分析改進交通管理

■區(qū)域醫(yī)療大數據應用案例

■銀聯(lián)大數據數據票據詳單平臺

■廣東移動省公司請賬單系統(tǒng)

■上海電信網絡優(yōu)化

■某通信運營商全國用戶上網記錄

■浙江臺州市智能交通系統(tǒng)

■移動廣州詳單實時查詢系統(tǒng)

模塊一 Spark

生態(tài)介紹

■Mapreduce、storm和spark模型的比較和使用場景介紹

■Spark產生背景

■Spark（內存計算框架）

■SparkSteaming（流式計算框架）

■Spark SQL（ad-hoc）

■Mllib（MachineLearning）

■GraphX（bagel將被代）

■DlinkDB介紹

■SparkR介紹

模塊二 Spark

安裝部署

■Spark安裝簡介

■Spark的源碼編譯

■Spark Standalone安裝

■Spark應用程序部署工具spark-submit

■Spark的高可用性部署

模塊三 Spark

運行架構和解析

■Spark的運行架構

■基本術語

■運行架構

■Spark on Standalone運行過程

■Spark on YARN 運行過程

■Spark運行實例解析

■Spark on Standalone實例解析

■Spark on YARN實例解析

■比較 Standalone與YARN模式下的優(yōu)缺點

模塊四 Spark

scala編程

■Scala基本語法與高階語法

■Scala基本語法

■Scala開發(fā)環(huán)境搭建

■Scala開發(fā)Spark應用程序

■使用java編程

■使用scala編程

■使用python編程

模塊五 Spark

編程模型和解析

■Spark的編程模型

■Spark編程模型解析

■RDD的特點、操作、依賴關系

■Spark應用程序的配置

■Spark的架構

■spark的容錯機制

■數據的本地性

■緩存策略介紹

寬依賴與窄依賴

模塊六 Spark 數據挖掘

■Mllib的介紹

■graphX核心原理

■table operator和graph operator區(qū)別

■vertices、edges和triplets介紹

■構建一個graph

■SparkR原理

■SparkR實戰(zhàn)

模塊七 Spark Streaming原理和實踐

■Spark Streaming與Strom的區(qū)別

■Kafka的部署

■Kafka與Spark Streaming的整合

■Spark Streaming原理

■Spark流式處理架構

■DStream的特點

■Dstream的操作和RDD的區(qū)別

■帶狀態(tài)的transformation與無狀態(tài)transformation

■Spark Streaming的優(yōu)化

■Spark Streaming實例

■Streaming的容錯機制

■streaming在yarn模式下的注意事項

對于需結合第三方存儲機制的與流式處理方案

■文本實例

■網絡數據處理

■Kafka+Spark Streaming實現(xiàn)日志的實時分析案例

模塊八 Spark的優(yōu)化

■序列化優(yōu)化——Kryo

■Spark參數優(yōu)化實戰(zhàn)

■Spark 任務的均勻分布策略

■Partition key傾斜的解決方案

■Spark任務的監(jiān)控

■GC的優(yōu)化

■Spark Streaming吞吐量優(yōu)化

■Spark RDD使用內存的優(yōu)化策略

■Spark在使用中的感想分享

模塊九 Spark的數據源

■Spark與HDFS的整合

■HDFS RDD原理和實現(xiàn)

■Spark與Hbase的整合

■Spark與Cassendera整合

■Hbase RDD的分區(qū)讀取

■Hbase RDD的原理和實現(xiàn)

■Spark parallelism RDD的工作機制

模塊十 Spark Streaming應用及案例分析

■Spark Streaming產生動機

■ Spark Streaming程序設計

（1）創(chuàng)建DStream

（2）基于DStream進行流式處理

■Spark Streaming容錯與性能優(yōu)化

（1）Spark Streaming容錯機制

（2）如何對spark Streaming進行優(yōu)化

■ Spark Streaming案例分析

基于Spark Streaming的用戶標簽系統(tǒng)，內容包括項目背景，項目架構以及實施方法

模塊十一

典型項目

案例實戰(zhàn)

■基于spark日志分析

■個性化推薦系統(tǒng)：帶你揭開其神秘面紗

■在線投放引擎

■揭開淘寶點擊推薦系統(tǒng)的神秘面紗

■淘寶數據服務架構—實時計算平臺

【講師介紹】

張老師,曼頓培訓網(www.mdpxb.com )資深講師。阿里大數據高級專家，國內資深的Spark、Hadoop技術專家、虛擬化專家，對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術進行了多年的深入的研究，更主要的是這些技術在大量的實際項目中得到廣泛的應用，因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經驗。近年主要典型的項目有：某電信集團網絡優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數據數據票據詳單平臺、某大型銀行大數據記錄系統(tǒng)、某大型通信運營商全國用戶上網記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數據應用項目、互聯(lián)網公共數據大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等。

【費用及報名】

1、費用：培訓費9800元（含培訓費、講義費）；如需食宿，會務組可統(tǒng)一安排,費用自理。

2、報名咨詢：4006820825 010-56133998 56028090 13810210257 鮑老師

3、報名流程：電話登記-->填寫報名表-->發(fā)出培訓確認函

4、備注：如課程已過期，請訪問我們的網站，查詢最新課程

5、詳細資料請訪問北京曼頓培訓網：www.mdpxb.com (每月在全國開設四百多門公開課，歡迎報名學習)

国产女人大黑β片在线观看_国产成人亚洲精品无码Av大片l_亚洲成人无码手机播放_强奸暴虐视频在线观看

北京曼頓企業(yè)管理咨詢有限公司

學校介紹