Python3爬虫种类:理论+实验+爬取妹子图实战

Github: https://github.com/wangy8961/python3-concurrency-pics-02
,欢迎star

爬虫系列:

(1) 理论

(2) 实验

(3) 实战

1. 准备条件

1.1 安装CentOS

提议利用VMware安装一台CentOS-7.3虚拟机,请参考:http://www.madmalls.com/blog/post/customize-centos-7-3-autoinstall-iso/

1.2 安装Python3

请参考:http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/\#3-python3

1.3 安装MongoDB

请参考:http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/\#4-mongodb
,如果是Windows请参考:http://www.madmalls.com/blog/post/win10-install-mongodb/

品味利用motor落到实处MongoDB异步操作,好像功能更差不多,所以甩掉选拔该模块。近来数据库操作是同台阻塞型,使用pymongo模块

1.4 安装Git

[root@CentOS ~]# yum -y install git

代码已上传到 https://github.com/wangy8961/python3-concurrency-pics-02
,克隆代码:

[root@CentOS ~]# git clone https://github.com/wangy8961/python3-concurrency-pics-02.git
[root@CentOS ~]# cd python3-concurrency-pics-02/

1.5 准备虚拟环境

假如你的操作系统是Linux:

[root@CentOS python3-concurrency-pics-02]# python3 -m venv venv3
[root@CentOS python3-concurrency-pics-02]# source venv3/bin/activate

Windows激活虚拟环境的通令是: venv3\Scripts\activate

1.6 安装看重包

若果您的操作系统是Linux:

(venv3) [root@CentOS python3-concurrency-pics-02]# pip install -r requirements-linux.txt

即便你的操作系统是Windows(不会使用uvloop):

(venv3) C:\Users\wangy> pip install -r requirements-win32.txt

2. 分析进度

图片 1

2.1 获取图集音讯

使用requests模块或aiohttp模块来取得入口页面
http://www.mzitu.com/all/
的HTML响应,然后经过BeautifulSoup4lxml来解析HTML文档。每个图集按年份/月份被放在<div class='all'></div>上边的每个<a href="图集URL">图集标题<a>中。必要注意的是,早期图片要求拜访
http://www.mzitu.com/old/ ,递归调用获取图集的函数即可

将收获的4000三个图集音讯保存到MongoDB数据库的albums集合中

访问 http://www.mzitu.com/all/http://www.mzitu.com/old/
,共2次请求

2.2 获取包罗图表的页面新闻

种种图集上边的图片数量不同,大家须求各类走访图集URL,通过分页导航栏取得该图集下最大的图形数和它的揭露时间,并在地点磁盘上创办按日期分类的目录,方便将来浏览图片

即使图集URL为 http://www.mzitu.com/56918
,发现该图集下有47张图纸,而且富含图表的页面URL也是有规律的,比如含有第1张图纸的页面URL为
http://www.mzitu.com/56918/1

将各种图集上边的盈盈图表的页面信息保存到MongoDB数据库的image_pages集合中

各类走访图集URL,共4500多次请求

2.3 获取图片的实事求是URL

俺们由此访问每个包罗图表的页面,获取每张图片的忠实URL,并保留到MongoDB数据库的images集合中

逐一走访包罗图表的页面URL,共13万多次请求*

2.4 下载图片

从MongoDB数据库的images聚拢中取得具有图片的实在URL,依次下载并保留到当地

逐一走访图片的真实性URL,共13万多次请求

3. 使用

3.1 测试

由于图片有13万多张,所以测试的时候,你可以指定只下载100个图集来对待同步下载多线程下载异步下载的功用不一致,修改以下七个脚本中的TEST_NUM = 100

提出每一回测试完,都剔除相关目录:

(venv3) [root@CentOS python3-concurrency-pics-02]# rm -rf downloads/ logs/ __pycache__/

剔除数据库记录:

(venv3) [root@CentOS python3-concurrency-pics-02]# mongo
MongoDB shell version v3.6.6
connecting to: mongodb://127.0.0.1:27017
...
> show dbs
admin   0.000GB
config  0.000GB
local   0.000GB
mzitu   0.036GB
> use mzitu
switched to db mzitu
> db.dropDatabase()
{ "dropped" : "mzitu", "ok" : 1 }
> show dbs
admin   0.000GB
config  0.000GB
local   0.000GB
> 

(1) 依序下载

(venv3) [root@CentOS python3-concurrency-pics-02]# python sequential.py

(2) 二十四线程下载

(venv3) [root@CentOS python3-concurrency-pics-02]# python threadpool.py

(3) 异步下载

(venv3) [root@CentOS python3-concurrency-pics-02]# python asynchronous.py

3.2 后台运行爬虫脚本

全站下载尽管唯有13万多张图片,但章节分析过,总请求数大概有30万次,所以耗时相比久,为预防不小心关闭Shell客户端而导致SSH断开,将动用screen来将脚本运行为后台职分:

[root@CentOS ~]# yum -y install screen
[root@CentOS ~]# screen -dmS spider
[root@CentOS ~]# screen -r spider
[root@CentOS ~]# cd /root/python3-concurrency-pics-02
[root@CentOS python3-concurrency-pics-02]# source venv3/bin/activate
(venv3) [root@CentOS python3-concurrency-pics-02]# python asynchronous.py

本子运行的长河中,按Ctrl + A + D即可将职务切换来后台运行,此时再关闭Shell客户端也没影响了。等待大约2小时后:

[root@CentOS ~]# screen -r spider

即可查看下载的结果,假若有战败的呼吁,很健康,再度实施脚本即可

图片 2

(venv3) [root@CentOS python3-concurrency-pics-02]# ls -lR downloads/ | grep '^-' | wc -l
138217
(venv3) [root@CentOS python3-concurrency-pics-02]# du -sh downloads/
16G downloads/

3.3 定时职责自动每天更新

[root@CentOS ~]# crontab -e
执行上述命令后,将打开vim编辑器,新增如下两行内容:

# 爬取 www.mzitu.com 美女图片
30 23 * * * /usr/bin/python3 /root/python3-concurrency-pics-02/asynchronous.py

将在每一日晚上23:30分自行执行爬虫脚本,查看cron定时义务是还是不是履行:

[root@CentOS ~]# tail -f /var/log/cron
Aug 27 23:30:01 CentOS CROND[6256]: (root) CMD (/usr/bin/python3 /root/python3-concurrency-pics-02/asynchronous.py)
Aug 27 23:30:01 CentOS CROND[6257]: (root) CMD (/usr/lib64/sa/sa1 1 1)

更多cron知识请参考:http://www.madmalls.com/blog/post/how-to-schedule-tasks-in-linux-with-at-and-cron/

相关文章