从零开始爬取Wikipedia

从零开始爬取Wikipedia 扫二维码继续学习 二维码时效为半小时

免费

课程介绍

直播安排

爬虫的基础知识
Wikipedia 内容获取途径
Wikipedia 抓取及数据存储
Wikipedia 模板分析
Wikipedia infobox 信息抽取及存储

演讲者

杨真   资深软件架构师
    曾就职于Sun中国工程研究院,负责Java 虚拟机的定制开发工作;之后就任腾讯无线部门技术负责人,引领开发了第一版的欢乐斗地主、QQ空间移动版及QQ音乐;2013年自主创业并任公司CTO,开发了多款基于爬虫、大数据及搜索引擎的商业应用及产品。硕士毕业于北京航空航天大学计算机专业,一直从事软件研发工作,具备丰富的互联网产品研发经验。