《分布式爬虫实战》第一期,把数据搞回来 扫二维码继续学习 二维码时效为半小时

(7评价)
价格: 899.00元

1.正则表达式:

^ 开始 $以任意字符结尾 .任意字符 *重复任意多次

[展开全文]

http响应状态码:

2xx   成功

3xx   跳转

4xx   客户端错误

5xx   服务器错误

 

 

[展开全文]

网络接口-交换机

互联网络-路由器

传输层-socket

应用层-http

socket-分布式

http-协议

http:

无连接 无状态

http header

 

[展开全文]

多机爬虫——分布式存储

分布式爬虫原因:

  1. 对抗反爬:解决ip限制
  2. 利用更高带宽
  3. 大规模系统的分布式存储和备份
  4. 数据的扩展能力,备份能力,爬取能力。

将多进程爬虫部署到多台主机:

  1. 数控地址配置到统一的服务器上。
  2. 设置数据库ip来源的访问限制。(设置mysql中的mysql表,和my.cnf)
  3. 设置防火墙,允许端口远程链接。(os中有个防火墙 )

爬虫原始数据特点:

  1. 大量小kb文件(如图片),读取会慢。
  2. 文件数量大
  3. 极少修改
  4. 顺序读写(一般原始网页顺序读写,分析出来的结果数据才会存到数据库中查询。)
  5. 并发的文件读写
  6. 可扩展的存储
  7. 数据备份问题(磁盘有故障率)

hadoop 文件名和文件内容分离

类似有:GFS(谷歌)、 S3(亚马逊)

hdfs坑:

没写入一个文件需要在name Node里加一条。若文件名较长

name Node不适合存大量数据。

改进:

存到HBASE里

 

mysql面向行,hdfs的HBASE面向列。

mysql每一行是一个节点,存到B+树里。

HBASE 以列族(column family)的方式.

 

mysql(之前所知道的版本)不具备分片的能力。及一张表不能存在不同机器上。

分布式数据库:可以分片

 

 

 

 

[展开全文]

微信加密比较多,可能爬数据相对比较困难。

[展开全文]

java python解释语言。

在虚拟机上解释运行。java多线程,本地一个线程,在虚拟机里模拟了多线程。

python线程是直接运行于os上。

[展开全文]