《Hadoop大数据体系》,hulu大数据团队主讲,12月13日开课 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 899.00元

  

课程名称:

Hadoop大数据技术体系:原理、内幕与项目实践》第一期

课程特色:

本课程以“互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技术,涉及数据收集,存储,数据分析以及数据可视化,最终会形成一个完整的大数据项目。

本课程以目前主流的,最新Hadoop稳定版2.7.x为基础,同时兼介绍3.0版本新增特性及使用,深入浅出地介绍Hadoop大数据技术体系的原理、内幕及案例实践, 内容包括大数据收集、存储、分布式资源管理以及各类主要计算引擎,具体包括数据收集组件Flume、分布式文件系统HDFS,分布式资源管理系统YARN以及分布式计算引擎MapReduceHivePresto,涉及各组件基本原理,使用方法,实战经验(优化技巧)以及在线演示。

本课程精心设计了互联网日志分析系统这一案例,帮助大家在理解理论的基础上,亲手实践Hadoop

基础要求:

了解Linux基础知识,掌握Java语言基础

目标人群:

大数据爱好者,Hadoop初中级学者,希望系统性学习Hadoop的人

主讲老师:

 

Hulu大数据团队

董西成,毕业于中国科学院,hulu大数据架构组负责人;《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。

谭政,毕业于北京大学,曾就职于新浪微博平台研发部;曾参与微博核心Feed系统的改造,主导多机房数据同步和容灾部署,Spark内核级优化和企业推广,Hadoop集群升级与优化,Hive On Tez优化以及推广等工作。

,毕业于中国科学院,HBase Contributor;参与维护并优化千节点规模的Hadoop集群,对分布式存储系统有深入研究(源码级修改),尤其擅长HDFS/HBase调优及应用;利用impalapresto大数据查询引擎构建企业级OLAP引擎,对高性能查询优化有丰富经验。

开课时间:

20161213

学习方式:

在线直播,10次,每次2小时

每周2次(周二、周四晚上20:00-22:00

直播后提供录制回放视频,在线反复观看,有效期1

课程大纲

第一部分      Hadoop 概述(共1课时)

 

1.1  大数据背景

1.2  大数据技术体系

1.3  Hadoop生态系统构成以及核心组件

1.4  Hadoop主流发行版以及选型

        包括ApacheCDH HDP

1.5  Hadoop单机及分布式集群搭建方法(在线演示)

1.6  Hadoop典型应用场景

        包括日志分析,搜索引擎索引构建、机器学习等

1.7  课程综合案例:分布式日志分析系统

        介绍分布式日志分析系统的背景、关键模块、以及采用的关键大数据技术 。

 

第二部分 大数据技术体系关键组件原理、使用与实战(共8.5课时)    

 

2.1  分布式数据收集:Flume原理与应用(共1课时)

2.1.1     Flume产生背景

2.1.2     Flume基本原理及架构

2.1.3     Flume部署模式(在线演示)

2.1.4     FlumeHadoop整合应用与实战

2.1.5     分布式日志分析系统:数据收集模块剖析

        详细介绍基于TailDirPool Directory SourceFile Channel以及HDFS sink收集日志的flume拓扑构建方式。

2.2  分布式文件系统:HDFS基础与应用(共1课时)

2.2.1     HDFS产生背景

2.2.2     HDFS基本原理

2.2.3     HDFS架构以及关键组件

2.2.4     HDFS使用方式(在线演示)

2.2.5     HDFS优化小技巧

2.2.6     分布式日志分析系统:文件存储模块剖析

        详细介绍日志文件在HDFS存放方式,以及如何解决小文件,文件归档等问题。

2.3  分布式资源管理系统:YARN架构与应用 (共1课时)

2.3.1     YARN产生背景

2.3.2     YARN基本原理以及架构

2.3.3     YARN资源调度器(Capacity Scheduler以及Fair Scheduler

2.3.4     YARN基于标签的调度策略以及启用方式

2.3.5     YARN典型应用场景及在大数据系统中的地位

2.3.6     分布式日志分析系统:资源管理模块剖析

        详细介绍容量调度器,多队列管理,如何启用基于标签的调度机制

2.4  分布式计算:批处理引擎MapReduce(第一部分)(共1课时)

2.4.1     MapReduce产生背景

2.4.2     MapReduce基本原理

2.4.3     MapReduce基本架构

2.4.4     MapReduce Java分布式程序设计(在线演示)

2.4.5     什么情况下Spark性能比MapReduce

2.4.6     MapReduce的未来

2.5  分布式计算:批处理引擎MapReduce(第二部分)(共1课时)

2.5.1     MapReduce回顾

2.5.2     MapReduce多语言程序设计(在线演示)

2.5.3     MapReduce优化小技巧

2.5.4     分布式日志分析系统:ETL模块剖析

        详细介绍如何使用Java API以及Hadoop Streaming方式设计ELT程序。

2.6  分布式计算:数据分析引擎Hive(第一部分)(共1课时)

2.6.1     Hive产生背景

2.6.2     Hive基本架构以及部署模式

2.6.3     Hive HQL基础(在线演示)

2.6.4     Hive创建ParquetORC

2.6.5     总结

2.7  分布式计算:数据分析引擎Hive(第二部分)(共1课时)

2.7.1     Hive编程访问

2.7.2     Hive On Tez/Spark

2.7.3     Hive优化小技巧

2.7.4     分布式日志分析系统:数据仓库模块剖析

        详细介绍如何在Hive中进行数据建模,并使用Hive查询引擎查询日志数据。

2.8  分布式计算:数据查询引擎Presto(共1课时)

2.8.1     Presto产生背景

2.8.2     Presto基本架构以及部署模式

2.8.3     Presto SQL基础(在线演示)

2.8.4     Presto优化小技巧

2.8.5     分布式日志分析系统:数据仓库查询模块剖析

        详细介绍如何使用Presto加速数据查询效率(相比于Hive

2.9  大数据可视化:可视化主流方案(共0.5课时)

2.9.1     什么是大数据可视化

2.9.2     可视化主流解决方案

2.9.3     EChartD3tableau, Hue

2.9.4     分布式日志分析系统:报表可视化模块剖析

        详细介绍如何构建日志分析系统的可视化模块。

 

第三部分     综合案例回顾:分布式日志分析系统(共0.5课时)

 

3.1  案例背景

3.2  基本架构与关键模块

3.3  日志分析系统部署及维护

3.4  总结

常见问题:

Q: 会有实际上机演示和动手操作吗?

A: 有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验。

Q: 本课程主要是基于Hadoop 2.7.x版本吗,如果3.0成熟了,内容会不会过期?

A: 不会的。本课程以介绍Hadoop基本原理和使用技巧为主,这些内容适用于2.x之后各个版本,尽管Hadoop3.x有稍许的改动,但学员学完这门课后,应该有能力主动学习这些新功能和特性。

Q: 本课程有专门的答疑时间吗?

A: 有的。助教会统一收集学员问题,老师在每节课最后部分,会在线回答20~30个问题,并由助教整理后发布到问答社区中。

联系方式:

1客服微信18600475565

2、客服手机:18600475565

3、邮件:admin@chinahadoop.cn

4、网站:http://www.chinahadoop.cn