实用机器学习方法——集成学习

免费

主讲人:孙 亮

阿里巴巴数据科学与技术研究院高级专家

 

曾任微软Azure机器学习(Azure Machine Learning)部门高级数据科学家,先后毕业于南京大学计算机系、中国科学院软件研究所、美国亚利桑那州立大学计算机系,研究兴趣包括机器学习、数据挖掘及其实际应用等。在IEEE T-PAMI、NIPS、ICML、SIGKDD等机器学习领域的顶尖国际期刊和国际会议上发表论文近20篇,著有机器学习英文专著1部。近年来参加了多项数据挖掘竞赛并多次取得优异成绩。在机器学习领域具有坚实的理论功底和丰富的实际工作经验。

 

▣ 主题:实用机器学习方法——集成学习

▣ 时间:7月27日 21:00-22:30

▣ 形式:视频直播

 

▣ 讲座概要:

 

集成学习(ensemble learning)是一类在实践中非常有效的机器学习算法。相比单个模型,集成学习能够有效的综合多个模型,取长补短,从而取得更好的性能。近年来基本上所有的机器学习竞赛的获胜方案都是基于集成学习的模型。

本讲座主要讲述集成学习的基本思想,以及几种常用的集成学习模式,包括1)bagging; 2)boosting; 3)stacking。对于最常用的bagging和boosting我们还进一步以随机森林和AdaBoost为例介绍具体算法和R中的具体应用。

 

▣ 讲座提纲:

 

1.从Netflix Prize说起

2.集成学习的基本思想

1)集成学习为何有效

2)如何构建不同的基学习器

3)如何综合多个基学习器

3.Bagging

1)Bagging的基本思想

2)随机森林以及在R中的实际应用

4.Boosting

1)Boosting的基本思想

2)AdaBoost以及在R中的实际应用

5.Stacking

6.小结以及实用技巧

授课教师