scrapy之实现断点续爬以及定时启动和关闭功能.py

实例介绍

【实例简介】实现scrapy的断点续爬
【实例截图】

1.设置断点续爬：

在定时启动和关闭前，需要先设置断点续爬，将关闭前的数据保存，防止再次启动时
新建一个run.py文件

from scrapy import cmdline
cmdline.execute("scrapy crawl douluo -s JOBDIR=crawls".split()) 

	
	
		1
	

	
		2

这样爬虫在正常结束时，会新建一个cralws文件夹，并将进度保存在里面

2.设置关闭时间

在启动时添加CLOSESPIDER_TIMEOUT=秒数
即可将爬虫设置成多少秒后自动停止运行

from scrapy import cmdline
cmdline.execute("scrapy crawl douluo -s CLOSESPIDER_TIMEOUT=3 -s JOBDIR=crawls".split()) 

	
	
		1
	

	
		2

这样，run.py文件就被编辑好了，用于运行scrapy爬虫

3.新建一个runs.py,用于将run文件放入循环中

若直接在run.py中将cmdline.execute放入循环，程序在cmd结束后就结束了，并不会循环，因此新建一个py文件，用于将启动cmd放入循环，这样每次爬取结束后程序都不会结束
具体代码如下：

import os import time while True: os.system('run.py') time.sleep(5) 

	
	
		1
	

	
		2
	

	
		3
	

	
		4
	

	
		5

这样，我们就将scrapy设置成了启动后3s自动停止，停止后5s自动启动，并且拥有断点续爬的功能

【核心代码】import os import time while True: os.system('run.py') time.sleep(5)

标签： Scrapy框架 scrapy User en py

实例下载地址

点此下载实例

不能下载？内容有错？点击这里报错 + 投诉 + 提问

好例子网口号：伸出你的我的手 — 分享！

网友评论

我要评论

小贴士

感谢您为本站写下的评论，您的评论对其它用户来说具有重要的参考价值，所以请认真填写。

类似“顶”、“沙发”之类没有营养的文字，对勤劳贡献的楼主来说是令人沮丧的反馈信息。
相信您也不想看到一排文字/表情墙，所以请不要反馈意义不大的重复字符，也请尽量不要纯表情的回复。
提问之前请再仔细看一遍楼主的说明，或许是您遗漏了。
请勿到处挖坑绊人、招贴广告。既占空间让人厌烦，又没人会搭理，于人于己都无利。

关于好例子网