使用Apache Kylin分析Twitter流数据

免费

主讲人:史少锋

Kyligence技术合伙人 & 资深软件架构师,Apache Kylin核心开发者和项目管理委员会成员,专注于大数据分析和云计算技术。曾任eBay全球分析基础架构部大数据高级工程师,IBM云计算软件架构师。

主题:基于Kylin和Kafka实时分析Twitter流数据

讲座概要:

 

 

Apache Kylin是基于Hadoop的分布式极速分析引擎,既支持从Hive一次加载海量数据进行运算,也支持从Kafka以微批次方式持续消费数据;在以往的版本里,Kylin对Hive数据源的支持可谓是十分的成熟和稳定;在最近发布的v1.6里,Kylin引入了全新设计的流处理架构,解决了之前版本的若干不足,在扩展性、健壮性等方面有了大幅提升;本次微课程将以公开的Twitter消息流为例,介绍如何使用Kylin直接从Kafka获取数据并注入Cube,使得数据从产生到被分析检索的延迟,从天/小时级别降低到分钟级别。

 

 

▣ :讲座提纲

 

  1. Apache Kylin架构回顾

  2. V1.5:streaming的初次尝试

  3. V1.6:可扩展的streaming cubing

  4. 使用Kylin分析Twitter消息流

  5. 未来展望

授课教师