《Spark——原理、内幕与案例实践》,董西成主讲 已关闭

《Spark——原理、内幕与案例实践》,董西成主讲 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 899.00元

课程名称:

Spark——原理、内幕与案例实践》第一期

课程特色:

以目前主流的、最新的Spark稳定版1.6.x为基础,同时兼介绍2.0版本新增特性及使用;

深入浅出地介绍Spark生态系统原理及应用,内容包括Spark各组件(Spark Core/SQL/Streaming/MLlib基本原理、使用方法、实战经验以及在线演示;

本课程精心设计了若干实验案例,帮助大家在理解理论的基础上,亲手实践Spark

基础要求:

了解Linux基础知识,掌握JavaScala语言基础,了解HDFS

主讲老师:

董西成    小象学院签约讲师

hulu大数据架构组负责人;

Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;

资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。

开课时间:

20161011

学习方式:

在线直播,共9

每周2次(周二、周五晚上20:00-22:00

直播后提供录制回放视频,在线反复观看,有效期1

课程大纲

Spark 概述(共1课时)

1.1

Spark产生背景

 

包括mapreduce缺陷,多计算框架并存等

1.2

Spark 基本特点

1.3

Spark版本演化

1.4

Spark核心概念

 

包括RDD, transformation, action, cache

1.5

Spark生态系统

 

包括Spark生态系统构成,以及与Hadoop生态系统关系

1.6

Spark在互联网公司中的地位与应用

 

介绍当前互联网公司的Spark应用案例

1.7

本课程与Spark 2.0的关系

1.8

Spark集群搭建

 

包括测试集群搭建和生产环境中集群搭建方法,并亲手演示整个过程

   

Spark Core(共3课时)

2.2

Spark  程序设计与实战

2.1.1

Spark运行模式介绍

 

Spark运行组件构成,spark运行模式(localstandalonemesos/yarn等)

2.1.2

Spark开发环境构建

 

集成开发环境选择,亲手演示spark程序开发与调试,spark运行

2.1.3

常见transformationaction用法

 

介绍常见transformationaction使用方法,以及代码片段剖析

2.1.4

常见控制函数介绍

 

包括cachebroadcastaccumulator

2.1.5

在线演示:简易电影受众分析系统

 

包括:背景介绍,数据导入,数据分析,常见Spark transformationaction用法在线演示

2.2

Spark  内部原理剖析与源码阅读

2.2.1

Spark运行模式剖析

 

深入分析spark运行模式,包括localstandalone以及spark on yarn

2.2.2

Spark运行流程剖析

 

包括spark逻辑查询计划,物理查询计划以及分布式执行

2.2.3

Spark shuffle剖析

 

深入介绍spark shuffle的实现,主要介绍hash-basedsort-based两种实现

2.2.4

Spark 源码阅读

 

Spark源码构成以及阅读方法

2.3

Spark  程序调优

2.3.1

数据存储格式调优

 

数据存储格式选择,数据压缩算法选择等

2.3.2

资源调优

 

如何设置合理的executorcpu和内存数目

2.3.3

程序参数调优

 

介绍常见的调优参数

2.3.4

程序实现调优

 

如何选择最合适的transformationaction函数

   

Spark SQL 2.0(共2课时)

3.1

Spark  SQL基本原理

3.1.1

Spark SQL是什么

3.1.2

Spark SQL基本原理

3.1.3

Spark  DataframeDataSets

3.1.4

Spark SQLSpark Core的关系

3.2

Spark  SQL程序设计与应用案例

3.2.1

Spark SQL程序设计

 

如何访问MySQLHDFS等数据源,如何处理parquet格式数据

 

常用的DSL语法有哪些,如何使用

3.2.2

Spark SQL应用案例:篮球运动员评估系统

 

背景介绍

 

数据导入

 

数据分析

 

结论

   

Spark Streaming(共1课时)

4.1

Spark  Streaming基本原理

4.1.1

Spark Streaming是什么

4.1.2

Spark Streaming基本原理

4.1.3

Structured Streaming

4.1.4

Spark  Streaming 编程接口介绍

4.1.5

Spark Streaming应用案例

4.2

Spark  Streaming程序设计

4.2.1

常见流式数据处理模式

4.2.2

Spark StreamingKafka 交互

4.2.3

Spark StreamingRedis交互

4.2.4

Spark Streaming部署与运行

   

Spark MLlib(共1课时)

5.1

Spark MLlib简介

5.2

数据表示方式

5.3

MLlib中的聚类、分类和推荐算法

5.4

如何使用MLlib的算法

5.5

MLlib 2.0实践

   

Spark综合案例:简易电影推荐系统(共1课时)

6.1

背景介绍

6.2

什么是Lambda architecture

6.3

利用HDFS+Spark Core+MLlib+Redis构建批处理线

6.4

利用Kafka+Spark Streaming+Redis构建实时处理线

6.5

整合批处理和实时处理线

 

常见问题:

Q: 会有实际上机演示和动手操作吗?

A: 有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验

Q: 本课程主要是基于Spark 1.6.x版本吗,如果2.0成熟了,内容会不会过期?

A: 不会的。本课程以介绍Spark基本原理和使用技巧为主,这些内容适用于1.6.x之后各个版本,尽管Spark 2.x有稍许的改动,但学员学完这门课后,应该有能力主动学习这些新功能和特性。

Q: 本课程专门有的答疑时间吗?

A: 有的。助教会统一收集学员问题,老师在每节课最后部分,在线回答20~30个问题,并由助教整理后发布到问答社区中。

联系方式:

1客服微信18600475565

2、客服手机:18600475565

3、邮件:admin@chinahadoop.cn

4、网站:http://www.chinahadoop.cn