从零开始爬取Wikipedia

免费

2019年是Python彻底崛起的一年,需求多,薪资高,而爬虫工程师、数据分析师、大数据工程师的岗位也越来越受欢迎,掌握Python爬虫也已成为每个工程师的必备项。

主讲内容:

一、关于爬虫的基础知识

静态网页的组织架构以及网页导航中,一个简单的爬虫就是递归地下载所有网页内容。怎样实现一个函数,并通过递归调用这个函数来遍历网站。

二、Wikipedia的获取途径

Wikipedia作为网络最大型及最受大众欢迎的参考工具书,是人类的知识宝库,具有丰富的用途,我们可以通过直接下载Wi-Ki知识库来爬取原始网页,获取文本信息。

三、怎样进行信息提取

通过xpath提取网页内容,并利用正则表达式来对文本进行模糊查询和匹配。获取并分析infobox模板信息。

主讲老师:

杨真,曾就职于Sun中国工程研究院、微软(亚洲)互联网工程院、腾讯北京无线事业部等知名公司。

早期负责Java虚拟机内核、移动端的产品和搜索引擎的开发,目前带领超过60人的资深研发团队,从事基于大数据、人工智能方面的产品开发,团队涉及图像处理(人脸识别、目标检测)、自然语言处理(文本分类、关系抽取、机器翻译、自动化摘要)、推荐系统、搜索引擎、知识图谱、自研图数据库、爬虫、大数据存储及挖掘、分布式系统架构、Web及移动端产品开发等技术领域。

授课教师

杨真   资深软件架构师       曾就职于Sun中国工程研究院、微软(亚洲)互联网工程院、腾讯北京无线事业部等知名公司,早期负责Jav...