《大数据应用实践》第一期

899.00

课程名称:
《大数据应用实践》第一期(七天无理由退款)
主讲老师:
肖冠宇 资深大数据研发工程师
著有《企业大数据处理应用实践》一书,多年互联网大数据研发实践经验,曾主导大数据平台建设和多项大数据项目研发,擅长分布式开发、离线计算和实时计算。
课程简介:
这是一门讲解工业界的大数据处理相关的实际案例干货的课程,课程内容丰富,详细讲解了主流的离线和实时等大数据技术,最后将各项技术融合使用完成一个工业界的真实项目案例。可以帮助你快速系统的掌握前沿实用大数据技术原理、应用场景、使用方法。 本课程从大数据处理的入门基础讲起,循序渐进,不断进阶,每一个课程都以案例驱动的方式进行,所有案例全部来自于工业界的互联网场景典型案例,让学员通过真实的案例和应用掌握大数据处理技术。所有随课程代码和虚拟机均会提供给学员进行实操。
面向人群:
1. 想要快速掌握大数据技术的学员。
2. 具有一定数据分析技术(SQL, Excel, Python)想要快速学习大数据分析的学员。
3. 想要将大数据应用于实践的从业人员。
4. 尚没有大数据基础知识的数据相关工作从业人员。
5. 想要转行从事大数据相关工作。
6. 高校老师、学生想学习研究大数据技术。
学习收益:
1. 熟练掌握大数据框架的部署与使用。
2. 掌握互联网行业大数据场景的分析思路与处理方法。
3. 熟练掌握基于Hadoop生态系统的大数据相关技术框架的原理和实践应用,包括HDFS、Yarn、MapReduce、Zookeeper、Hive、Flume、Kafka、Spark、SparkStreaming、SparkSQL、Scala、数据可视化工具等。
4. 通过真实项目实践,能够系统快速的掌握大数据技能。
开课时间:
2017年12月19日
学习方式:
在线直播,共12次课,每次2小时
每周2次(周二、周五,晚上20:00 - 22:00)
直播后提供录制回放视频,可在线反复观看,有效期1年
课程大纲:
第一课 Hadoop生态圈与Zookeeper应用实践
1. 大数据行业现状
2. Hadoop生态圈技术框架介绍
3. 大数据学习方法及学习路线
4. 大数据基础环境准备
5. Zookeeper原理、应用场景
6. 实战演示:Zookeeper分布式部署、常用管理操作
第二课 Hadoop原理与集群搭建
1. HDFS设计原理
2. HDFS核心概念详解
3. HDFS高可用实现原理
4. YARN基本框架原理
5. YARN容错性
6. 实战演示:Hadoop集群搭建、HDFS Shell常用管理命令操作
第三课 MapReduce原理与编程实践
1. HDFS文件写入读取流程详解
2. HDFS数据完整性
3. YARN作业提交运行过程详解
4. YARN内置作业调度器详解
5. MapReduce原理、特性
6. MapReduce编程模型详解
7. 实战演示:编程环境搭建、编写第一个MapReduce程序
第四课 MapReduce编程进阶与优化
1. Shuffle与排序详解
2. Combiner原理及应用
3. MapReduce并行度
4. MapReduce序列化
5. MapReduce分布式缓存
6. MapReduce常用优化
7. 实战项目:互联网广告数据分析
第五课 Hive离线数据处理
1. Hive配置、安装、常用操作
2. Hive支持的数据类型、内置常用函数、文件格式
3. Hive数据定义与操作
4. Hive SQL查询
5. 自定义UDF函数
6. Hive设计模式
7. 常用优化
8. 实战项目:互联网广告多维数据分析
第六课 Kafka在实时流系统中的应用
1. Kafka架构设计与应用场景
2. Kafka高吞吐实现原理
3. Kafka高可用实现原理
4. 实战演示:Kafka配置部署、常用操作
5. 实战演示:Kafka Producer API
6. 实战演示:Kafka Consumer API
第七课 Flume构建实时日志采集系统
1. Flume架构设计与应用场景
2. Flume内置组件详解
3. Flume负载均衡与故障转移实践
4. 实战项目:Flume日志收集系统设计与实践
第八课 Spark计算引擎
1. Spark产生背景及应用场景
2. Spark工作原理
3. Spark核心概念
4. Spark运行模式详解
5. Spark缓存与容错
6. Spark Shuffle详解
7. 实战演示:Spark Shell
第九课 Spark程序设计
1. Spark编程模型
2. Spark依赖
3. Spark Transformation和Action算子详解
4. 实战演示:编程环境搭建,编写第一个Spark程序
第十课 Spark SQL详解
1. Spark SQL架构设计及工作原理
2. DataFrame与DataSet API
3. Tungsten计划
4. Structured Streaming新特性
5. 实战项目:Spark SQL实现交互式实时数据分析
第十一课 Spark Streaming
1. Spark Streaming原理及应用场景
2. Spark Streaming程序设计
3. Spark优化经验
4. 实战项目:Spark + Kafka实现实时流处理系统
第十二课 大数据分析平台设计与实现
1. 数据可视化工具概述
2. 实战项目:离线、实时大数据分析平台设计与实现
常见问题:
Q: 本门课程需要什么基础 ?
A: 了解Linux基础知识,掌握Java语言基础,有Scala编程语言基础的学员更加容易接受课程内容。
Q:会有实际上机演示和动手操作吗?
A:有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验
Q:本课程中的应用案例的代码会公开吗?
A:会的,每位学员均可获取全部代码。
Q:本课程涉及的开源框架的版本是?
A:基于Hadoop 2.7,Spark 2.2,Flume 1.8,kafka 0.10.0,Hive 1.2。
Q:本课程有专门的答疑时间吗?
A:有的。助教会统一收集学员问题,老师在每节课最后部分会回答学员问题,并由助教整理后发布到问答社区中。
Q:在哪里上课?
A:课程直播和回放都在小象学院官网(http://www.chinahadoop.cn)上进行,不需要其他直播软件;如果希望上下班路上观看,可以下载小象学院app进行缓存。
联系方式:
参团后,请加客服微信:13126576580
手机:13126576580
邮件:admin@chinahadoop.cn
网站:http://www.chinahadoop.cn

授课教师

肖冠宇大数据资深研发工程师,多年互联网大数据研发和管理经验,曾主导大数据平台建设和多项大数据项目研发,擅长分布式开发、离线计算和实时计算。出...