《Hadoop进阶》 扫二维码继续学习 二维码时效为半小时

Hadoop的运维、开发、性能优化,深度搞定Hadoop!

699.00元

课程介绍


课程名称及简介

《Hadoop进阶》:本课程面向Hadoop高阶学习者,具有一定Hadoop系统使用经验,结合大规模使用Hadoop的实践经验,了解和掌握HDFS构建、Hadoop工具使用、调试优化,问题分析,通过分析示例掌握大量实际使用的经验,很多实战内容的示例是很少在网络上找到文档支持。

时间

共六周

培训方式

视频学习 + 在线答疑 + 每周作业 + 结业考试



课程大纲:

授课对象:Hadoop高级、具有一定Hadoop系统使用经验

适用Hadoop版本:兼顾所有Hadoop版本,包括ApacheHortonworksCDH发行版


第一部分. MapReduce

Mapreduce工作流程及基本架构回顾

运维相关

  • 参数调优
  • benchmark
  • reuse jvm
  • 错误感知及speculative执行
  • task日志分析
  • 可容忍错误百分比设置及跳过坏记录
  • 选择fairescheduler等其他调度器优化性能

开发相关

  • 数据类型选择
  • 实现自定义writable数据类型、自定义key
  • 一个mapper中输出不同类型value
  • InputFormat/OutputFormat,原理及定制
  • Mapper/Reducer/Combiner,Combiner的使用及其对mapreduce框架优化的作用
  • Partitioner定制
  • 排序策略GroupingComparator/SortComparator
  • 任务调度原理及修改方法(案例,map/reduce共享slot,按标识精准map/reduce调度)
  • Streaming
  • DistributedCache
  • mapreduce任务间依赖
  • counter
  • JobChild参数设置
  • 性能优化


第二部分. hdfs

HDFS API

fuse(C API

压缩

HDFS benchmark

Datanode添加及删除

多盘支持,磁盘错误感知

hdfs raid

HDFS block size设置相关问题

文件备份数设置

HDFS中合并文件


第三部分. Hadoop工具

dfsadmin/mradmin/balancer/distcp/fsck/fs/job

监控及报警

hadoop配置管理


第四部分. Hadoop调试

Log

本地模式调试map/reduce任务

远程调试


第五部分. 问题分析

Java GC介绍及java进程常用的分析工具jstatjhatjmap

top/iostat/netstat/lsof等

Jstack/kill -3

Strace

nload/tcpdump


第六部分.分析示例

MapReduce简单分析

MapReduce实现Group-by

MapReduce实现倒排索引

MapReduce实现直方图

MapReduce实现Join


主讲人: 冼茂源

Apache Hama project PMC。

具有在朗讯、Sun Microsystems、搜狗等通信、传统IT以及互联网企业的工作经历。

针对互联网具体业务的特殊需求,对hadoop调度机制、安全管理、存储优化、监控及管理系统等进行深度修改。

同时,在将HBase与具体查询业务相结合,在实际项目中进行系统问题排查及调优方面有丰富经验。

常见问题:

请点击 http://www.chinahadoop.cn/page/questions

试听视频:

请点击 http://www.chinahadoop.cn/course/6

请点击 http://www.chinahadoop.cn/course/12

Hadoop官方主页:

请点击 http://hadoop.apache.org/


联系我们:

在线咨询:

QQ群:344476417


微信公众号:ChinaHadoop


课程目标
  • 本课程面向Hadoop高阶学习者,具有一定Hadoop系统使用经验,结合大规模使用Hadoop的实践经验,了解和掌握HDFS构建、Hadoop工具使用、调试优化,问题分析,通过分析示例掌握大量实际使用的经验,很多实战内容的示例是很少在网络上找到文档支持。