《Spark 2.1》第二期

899.00

 

 

课程名称:

 

《Spark 2.1 原理、内幕与案例实践》第二期
 

主讲老师:
 

董西成    hulu大数据架构组负责人

《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;

资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。

 

 

课程简介:

 

以目前主流的,最新的spark稳定版2.1.x为基础,深入浅出地介绍Spark生态系统原理及应用,内容包括Spark各组件(Spark Core/SQL/Streaming/MLlib)基本原理,使用方法,实战经验以及在线演示。本课程精心设计了五个企业级应用案例,帮助大家在理解理论的基础上,亲手实践和应用spark

 

课程优化:

 

      1. 讲述最新、最稳定的Spark2.1.X版本

      2. 精心设计5个企业级应用案例,更好地实践、应用Spark

 

面向人群:

 

      1.  大数据爱好者

      2.  Spark初中级学者

      3.  对Spark感兴趣、想系统性学习者

 

 

学习收益:

 

      1.  熟练使用Spark, 理解Spark原理,熟知Spark内幕

      2.  掌握Spark 2.1新增特性并熟练使用

      3.  用有丰富的Spark企业实战经验

 

开课时间:

 

2017年4月6日


学习方式:

 

在线直播,共9次课,每次2小时

每周2次(周二、周四,晚上20:00 - 22:00

直播后提供录制回放视频,可在线反复观看,有效期1年

 

 

课程大纲:

 

第一部分:Spark 概述

 

第一课:Spark 2.1概述

 

      1.  Spark产生背景

           包括mapreduce缺陷,多计算框架并存等

      2.  Spark 基本特点

      3.  Spark版本演化

      4.  Spark核心概念

           包括RDD, transformation, action, cache等

       5.  Spark生态系统

包括Spark生态系统构成,以及与Hadoop生态系统关系

      6.  Spark在互联网公司中的地位与应用

           介绍当前互联网公司的Spark应用案例

      7.  Spark集群搭建

           包括测试集群搭建和生产环境中集群搭建方法,并亲手演示整个过程

      8.  背景知识补充介绍

     a.  Hadoop基础

           b.  HDFS简介(特点、架构与应用)

           c.  YARN简介(架构)

           d.  MapReduce简介(编程模型与应用)

                I.  Eclipse与Intellij IDEA

                II. Maven

 

第二部分   Spark Core

 

第二课:Spark  程序设计与企业级应用案例

 

      1.  Spark运行模式介绍

           Spark运行组件构成,spark运行模式(local、standalone、mesos/yarn等)

      2.  Spark开发环境构建

           集成开发环境选择,亲手演示spark程序开发与调试,spark运行

      3.  常见transformation与action用法

           介绍常见transformation与action使用方法,以及代码片段剖析

      4.  常见控制函数介绍

           包括cache、broadcast、accumulator等

      5.  Spark 应用案例:电影受众分析系统

           包括:背景介绍,数据导入,数据分析,常见Spark transformation和action用法在线演示

 

第三课:Spark  内部原理剖析与源码阅读

 

      1.  Spark运行模式剖析

           深入分析spark运行模式,包括local,standalone以及spark on yarn

      2.  Spark运行流程剖析

           包括spark逻辑查询计划,物理查询计划以及分布式执行

      3.  Spark shuffle剖析

           深入介绍spark shuffle的实现,主要介绍hash-based和sort-based两种实现

      4.  Spark 源码阅读

           Spark源码构成以及阅读方法

 

第四课:Spark  程序调优技巧

 

      1.  数据存储格式调优

           数据存储格式选择,数据压缩算法选择等

      2.  资源调优

           如何设置合理的executor、cpu和内存数目,YARN多租户调度器合理设置,启用YARN的标签调度策略等

      3.  程序参数调优

           介绍常见的调优参数,包括避免不必要的文件分发,调整任务并发度,提高数据本地性,JVM参数调优,序列化等

      4.  程序实现调优

           如何选择最合适的transformation与action函数

      5.  调优案例分享与演示

           演示一个调优案例,如何将一个spark程序的性能逐步优化20倍以上。

 

第三部分   Spark SQL 2.1

 

第五课:Spark  SQL基本原理

 

     1.  Spark SQL是什么

      2.  Spark SQL基本原理

     3.  Spark  Dataframe与DataSet

      4.  Spark SQL与Spark Core的关系

 

第六课:Spark  SQL程序设计与企业级应用案例

 

      1.  Spark SQL程序设计

           a.  如何访问MySQL、HDFS等数据源,如何处理parquet格式数据

           b.  常用的DSL语法有哪些,如何使用

           c.  Spark SQL调优技巧

     2.  Spark SQL应用案例:篮球运动员评估系统

 

           a.  背景介绍

           b.  数据导入

           c.  数据分析

           d.  结论

 

第四部分   Spark Streaming

 

第七课:Spark  Streaming、程序设计及应用案例

 

      1.Spark  Streaming基本原理

           a.  Spark Streaming是什么

           b.  Spark Streaming基本原理

           c.  Structured Streaming

           d.  Spark  Streaming 编程接口介绍

           e.  Spark Streaming应用案例

      2.  Spark  Streaming程序设计与企业级应用案例

           a.  常见流式数据处理模式

           b.  Spark Streaming与Kafka 交互

           c.  Spark Streaming与Redis交互

           d.  Spark Streaming部署与运行

           e.  Spark Streaming企业级案例:用户行为实时分析系统

 

第五部分   Spark MLlib

 

第八课: Spark MLlib及企业级案例

 

      1.  Spark MLlib简介

      2.  数据表示方式

      3.  MLlib中的聚类、分类和推荐算法

      4.  如何使用MLlib的算法

      5.  Spark MLLib企业级案例:信用卡欺诈检测系统

 

第六部分Spark综合案例

 

第九课:简易电影推荐系统

 

     1.  背景介绍

      2.  什么是Lambda architecture

      3.  利用HDFS+Spark Core+MLlib+Redis构建批处理线

      4.  利用Kafka+Spark Streaming+Redis构建实时处理线

      5.  整合批处理和实时处理线

      6.  扩展介绍:Apache beam:统一编程模型及应用

 

常见问题:

 

Q: 本门课程需要什么基础 ?

A: 了解Linux基础知识,掌握Java或Scala语言基础,了解Hadoop核心组件技术

Q:会有实际上机演示和动手操作吗?

A:有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验

Q:本课程中的五个企业级应用案例的代码会公开吗?

A:会的,每位学员均可获取全部代码。

Q:本课程主要是基于Spark 2.1.x版本吗,如果2.2.x或者更高版本出来了,内容会不会过期?

A:不会的。本课程以介绍Spark基本原理和使用技巧为主,这些内容适用于1.6.x之后个各个版本。

Q:本课程有专门的答疑时间吗?

A:有的。助教会统一收集学员问题,老师在每节课最后部分,会在线回答20~30个问题,并由助教整理后发布到论坛中。

Q:在哪里上课?

A:课程直播和回放都在小象学院官网(http://www.chinahadoop.cn)上进行,不需要其他直播软件;如果希望上下班路上观看,可以下载小象学院app进行缓存。

 
 

联系方式:

 

参团后,请加客服微信:13011218970

手机:13011218970

邮件:admin@chinahadoop.cn

网站:http://www.chinahadoop.cn

 

 

授课教师

资深Hadoop技术实践者和研究者,对Hadoop技术有非常深刻的认识和理解,有着丰富的实践经验。 曾经参与了商用Hadoop原型的研发,以...