《爬虫系统与数据处理实战》

899.00

课程名称: 

    《爬虫系统与数据处理实战

 

主讲老师:

杨真    资深软件架构师

      曾就职于Sun中国工程研究院、微软(亚洲)互联网工程院、腾讯北京无线事业部、完美世界等知名公司,早期负责Java虚拟机内核、移动端的产品和搜索引擎的开发,目前带领超过50人的资深研发团队,从事基于大数据、人工智能方面的产品开发,团队涉及图像处理(人脸识别、目标检测)、自然语言处理(文本分类、关系抽取、机器翻译、自动化摘要)、推荐系统、搜索引擎、知识图谱、自研图数据库、爬虫、大数据存储及挖掘、分布式系统架构、Web及移动端产品开发等技术领域。

 

 

课程简介:

     课程从爬虫技术引入,介绍如何获取人工智能各个领域所需要的数据,尤其是隐含标注信息的数据。本课程以大数据业务需求为导向,旨在掌握分布式爬虫的原理、理解互联网技术和各类数据分析挖掘的应用技巧,掌握各类人工智能,例如图片识别、文本分类、语义理解等信息的数据获取的策略

 

内容特色:

 

    1.  围绕人工智能的数据获取应用案例来展开,旨在让大家了解各个应用领域数据获取的方法和技巧

    2.  包含 Google、Wikipedia、微博、微信公众号、淘宝及京东 等各类网站数据的获取技术及方案

    3.  介绍了诸如图片识别、目标检测、实体类型识别、文本分类、关系抽取、结构化信息、聊天机器人等数据的来源及获取方式

    4.  爬虫的基础技术课程,例如 HTTP、Python 的基础等,以录播的方式介绍,直播课程重点介绍爬虫的应用场景

  

面向人群:

 

   1.  人工智能应用团队

   2.  想要成为爬虫工程师、数据工程师的学习者

   3.  爬虫系统项目经理、技术经理和架构师

   4.  希望搭建聚合类、数据挖掘类、图片视频库等网站的爱好者、从业者

   5.  有网络爬虫需求的开发者

   6.  网站后台及分布式系统架构的开发者和学习者

 

学习收益:

 

   1.  掌握分布式爬虫的实现原理以及常用的使用场景,例如内容聚合、过程跟踪、比价、数据挖掘等

   2.  掌握分布式系统架构设计

   3.  掌握常用数据库的原理和使用、开发中需要注意的重点

   4.  了解如Google、百度、今日头条等互联网公司的产品技术和解决方案

   5.  了解从文本采集到存储、分析的全套流程,会涉及基础的机器学习、文本分类和搜索引擎的原理

   6.  针对不同任务,能快速开发网络爬虫满足业务需求

 

开课时间:

 

2018年4月17日


学习方式:

 

   在线直播,共12次课,每次2小时

    每周2次(周二、周日,晚上20:00 - 22:00

    前两次课是录播课。

    提供录制回放视频,在线反复观看,有效期1年

 

课程大纲:

 

第一课 静态网页爬虫:爬虫的基础技术(录播)

    1.  HTML

    2.  CSS 选择器

    3.  JavaScript 介绍

    4.  lxml 及 XPath

    5.  Python 里的网络请求

    6.  第一个爬虫:蚂蜂窝的游记

  

第二课 登录及动态网页的抓取(录播)

    1.  表单

    2.  网站登录及Cookie

    3.  Headless 的浏览器:PhantomJS

    4.  浏览器的驱动:Selenium

    5.  动态网页数据获取

 

第三课 多线程与分布式爬虫的实现

    1.  线程与进程

    2.  Python 的多线程限制

    3.  从多线程爬虫到多进程爬虫

    4.  Socket 编程

    5.  Master 设计

    6.  Slave 设计

    7.  任务调度及通信协议

    8.  分布式集群部署的爬虫

    9.  分布式部署的爬虫集群实现

 

第四课 数据库系统与爬虫的数据存储

    1.  SQL 与 NoSQL

    2.  Redis

    3.  MySQL

    4.  MongoDB

    5.  基于分布式数据库系统的爬虫实现

 

第五课 社交网络分析:微博的抓取与结构化存储

    1.  微博网站分布及结构分析

    2.  通过动态页面来抓取

    3.  微博网络接口的逆向分析

    4.  利用API来抓取微博

  

 

第六课 热点分析:微信公众号抓取

    1.  AnyProxy 抓包工具

    2.  微信公众号接口分析

    3.  利用 NodeJS 重定向接口

 

第七课 热点分析:微信公众号抓取(续)

    1.  后台数据获取及保存

    2.  利用接口直接获取所有历史消息

    3.  应对微信公众号反爬虫的架构设计

 

第八课 商品及消费数据:京东/淘宝数据抓取及存储

    1.  守护进程

    2.  日志系统

    3.  Selenium + PhantomJS 架构

    4.  京东网站结构分析

    5.  淘宝数据抓取

 

第九课 PageRank、网页动态重拍及应对反爬虫技术

    1.  PageRank 计算模型及推导

    2.  网页抓取顺序重排

    3.  网站服务架构

    4.  寻找与利用分布式服务器

    5.  多IP技术与路由控制

    6.  几乎可以应对所有反爬规则的爬虫系统架构

 

第十课 自然语言处理:维基百科数据的结构化数据获取

    1.  图片及多媒体

    2.  批量下载

    3.  网站结构分析

    4.  批量数据抓取

    5.  数据提取 

  

第十一课 自然语言及图像处理:利用 Google 获取标记

    1.  自然语言处理中的关系抽取

    2.  Google Query 分析

    3.  Google 文本搜索的网页分析

    4.  Google 图片搜索的网页分析

    5.  应对Google的反机器人策略

 

第十二课 实体标注及分类数据获取

    1.  人工智能的分类问题

    2.  自然语言处理的实体识别

    3.  利用 Google 获取实体分类的先验信息

    4.  批量分类数据的获取

 

第十三课 Scrapy 爬虫框架介绍

    1.  Sample

    2.  框架分析

    3.  自动生成爬虫

    4.  控制台

    5.  流水线

    6.  中间件

 

第十四课 信息检索、搜索引擎原理及应用

    1.  搜索引擎架构介绍

    2.  正排表与倒排表

    3.  Bool 模型

    4.  Vector 模型

    5.  概率模型

    6.  TF/IDF

    7.  利用神经网络抽取特征并对结果排序

    8.  Elastic Search

 

 

常见问题:
 

Q: 会有实际上机演示和动手操作吗?
A: 有,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验。
Q: 参加本门课程有什么要求?
A: 对html能有一些了解(课前一周了解即可), 有任意语言编程经验即可。

Q: 本课程怎么答疑?
A: 推荐大家到小象问答社区(wenda.chinahadoop.cn)提问,方便知识的沉淀,老师会集中回答,不会因为QQ群信息刷屏而被老师错过。也会有专门的QQ班级群,同学们可以针对课上知识的问题,或者自己学习与动手实践中的问题,向老师提问,老师会进行相应解答。

Q: 课程中使用的软件工具是什么?会提供课程中使用的代码吗?
A: 课程中使用工具为Python,会提供代码。

Q:在哪里上课?

A:课程直播和回放都在小象学院官网(http://www.chinahadoop.cn)上进行,不需要其他直播软件;如果希望上下班路上观看,可以下载小象学院app进行缓存。

 

联系方式:

 

参团后,请加客服微信:13126537016

手机:13126537016

邮件:admin@chinahadoop.cn

网站:http://www.chinahadoop.cn

相关课程

已有12人购买 免费
已有80人购买 499.00

授课教师

杨真   资深软件架构师       曾就职于Sun中国工程研究院,负责Java 虚拟机的定制开发工作;之后就任腾讯无线部门技术负责人,引...