Spark上机器学习方法的模式与性能——尹绪森

免费

 

 

主题:Spark上机器学习方法的模式与性能

时间:2014年6月18日(周三)19:30-21:30

 

课程介绍:

 

处理大数据, 并从数据中获得知识是大数据时代的两大基石. 源于加州大学AMPLab的Spark无疑是大数据处理平台的新锐代表. 价值千万美金的Spark项目自诞生之日就备受瞩目, 甚至老东家AMPLab也顺势成立初创公司Databricks, 希望为Spark持续发展保驾护航. 随着Spark 1.0的发布, Spark已经在批处理,流计算, 机器学习, 图计算, SQL查询等一系列领域大展拳脚, 并随着愈发活跃的开发者社区以及Twitter, Adobe, Intel, Amazon, Redhat等公司的加入而渐成气候.

在大数据世界的另一端, 机器学习, 尤其是深度学习的极大发展让知识获取如沐春风. 比之于Hadoop, Spark对machine Learning也有更好的支持. 构建在Spark上的MLlib是Spark社区中机器学习方面的代表.从模型上来看, 广义线性模型, 决策树, 矩阵分解全面覆盖; 从数值优化上来看, 梯度下降, 牛顿方法, ADMM等一样不缺.MLlib逐渐走向成熟, 接口稳定, 算法表现优异. 在业界也饱受关注的目光.

机器学习算法有两面, 一面模型一面优化. 模型分为结构和参数, 结构有如深度学习中的卷积神经网络, 抑或浅层学习中的线性模型. 参数也有向量式的参数, 以及矩阵式的参数. 结构和参数交织, 再加上分布式平台Spark上的RDD表达的艺术, 织筑了分布式机器学习的画卷. 而言及优化, MIT教授, 第四范式的合伙人和CTO, 数据库领域宗师Mike Stonebraker在一次关于SciDB的访谈时说过, “Whether you are doing regression, singular value decomposition, finding eigenvectors, or doing operations on graphs, you are performing a sequence of matrix operations.” 一切关于计算的活动最终还是回归到矩阵计算本身. 因此可以说, 同样的算法下, 很大程度上是分布式访存模式影响了最终的性能. 而访存模式来源于模型与优化.

此次就Spark上机器学习方法的模式与性能为题, 讲述Spark上机器学习实现的一般方法并总结访存模式,希望为Spark上机器学习算法的开发带来一定的帮助. 内容要点包含Spark MLlib 1.0 简介, 常见机器学习算法的结构分析, MLlib访存模式等深入介绍等.

 

大纲:

 

Spark MLlib 1.0简介

  • 向量库现状, 使用, 及其分析, 性能分析
  • 模型表达, tree, GLM, LDA, kmeans, NaiveBayes
  • 优化方法: SGD, L-BFGS
  • Evaluation: AUC

常见机器学习算法结构分析

  • 广义线性模型
  • ALS模型
  • LDA模型
  • 深度学习模型

MLlib访存模式分析

  • 广义线性模型的访存模式
  • ALS模型的访存模式
  • LDA模型的访存模式
 

主讲人:

尹绪森,Intel中国研究院 工程师

 

  1. 熟悉并热爱机器学习相关内容,对自然语言处理、推荐系统等有所涉猎。
  2. 目前致力于机器学习算法并行、凸优化层面的算法优化问题,以及大数据平台性能调优。
  3. 对Spark、Mahout、GraphLab等开源项目有所尝试和理解,并希望从优化层向下,系统层向上对并行算法及平台做出贡献。

 

报名方式:

选择“购买课程”,价格为0。

 

 

联系我们:

 

微信公众号:ChinaHadoop

 

 

相关课程

已有1545人购买 免费
已有903人购买 免费

授课教师

管理员

网站管理员