《Spark 1.X 大数据平台V2》 扫二维码继续学习 二维码时效为半小时

699.00元

课程介绍


课程名称及简介:《Spark 大数据平台》

本课程内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,基于Spark的机器学习,图计算,Techyon,Spark的多语言编程以及SparkR的原理和运行。面向研究Spark的学员,它是一门非常有学习指引意义的课程。


时间:共10周

培训方式:视频学习 + 在线答疑 + 每周作业 + 结业考试

培训价格:

¥ 699元




第一周 Spark生态系统概述与编程模型

•    Spark生态系统概述

•    回顾Hadoop MapReduce

•    Spark运行模式

•    RDD

•    Spark运行时模型简介

•    缓存策略介绍

•    transformation

•    action

•    lineage

•    容错处理

•    宽依赖与窄依赖

•    集群配置


第二周 深入Spark内核

•    Spark术语解释

•    集群概览

•    核心组件

•    数据本地性

•    常用RDD

•    任务调度

•    DAGScheduler

•    TaskScheduler

•    Task细节

•    广播变量

•    累加器

•    性能调优


第三周 Spark on Yarn & Spark as a service

•    Spark on Yarn原理

•    Spark on Yarn实践

•    JobServer架构

•    JobServer API介绍

•    JobServer配置与部署


第四周 Spark Streaming原理与实践

•    DStream

•    数据源

•    无状态transformation与有状态transformation

•    checkpoint

•    容错

•    性能优化


第五周 Shark与Spark SQL

•    Shark数据模型

•    Shark数据类型

•    Shark架构

•    Shark部署

•    缓存(分区)表

•    SharkServer

•    Shark与Spark结合

•    Spark SQL架构

•    Parquet支持

•    DSL

•    SQL on RDD

•    Hive支持

•    UDF

•    JDBC Server


第六周 Machine Learning on Spark

•    LinearRegression

•    K-Means

•    Collaborative Filtering


第七周 Spark多语言编程

•    Python简介

•    PySpark API

•    使用Python编写Spark程序

•    Spark with Java


第八周 图计算GraphX

•    现存的图计算框架

•    Table Operators

•    Graph Operators

•    GraphX设计


第九周 Tachyon原理与实践

•    Tachyon原理与架构

•    Tachyon实践


第十周 SparkR

•    SparkR原理介绍

•    安装配置与运行




前置课程

《大数据前置课程—Scala》
http://www.chinahadoop.cn/course/37


主讲人: 陈 超

新浪微博:@CrazyJvm

计算机硕士,近年来一直专注于分布式计算与机器学习相关领域。

国内较早的Spark研究与使用者,并且也是Scala爱好者。

常见问题:

请点击 http://www.chinahadoop.cn/page/questions

试听视频:

请点击 http://www.chinahadoop.cn/course/7

Spark官方主页:

请点击 http://spark.apache.org/




手机:15611440609

邮件:Admin@chinahadoop.cn

在线咨询QQ群:344476417

在线客服QQ:2903431261 客服QQ


官方微博号:ChinaHadoop

微信公众号:ChinaHadoop


课程目标
  • 本课程内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,基于Spark的机器学习,图计算,Techyon,Spark的多语言编程以及SparkR的原理和运行。面向研究Spark的学员,它是一门非常有学习指引意义的课程。