在Python中退出爬虫,您可以使用以下方法:
使用`sys.exit()`函数退出程序
import sys
sys.exit() 立即退出程序
捕获`KeyboardInterrupt`异常
try:
爬虫代码
except KeyboardInterrupt:
print("爬虫被用户中断")
使用信号处理监视`SIGINT`信号
import signal
def signal_handler(signal, frame):
print('爬虫被用户中断')
sys.exit(0)
signal.signal(signal.SIGINT, signal_handler)
使用Scrapy框架的`spider_closed`信号
from scrapy import signals
class MySpider(scrapy.Spider):
name = 'myspider'
@classmethod
def from_crawler(cls, crawler, *args, kwargs):
spider = super(MySpider, cls).from_crawler(crawler, *args, kwargs)
crawler.signals.connect(spider.spider_closed, signal=signals.spider_closed)
def spider_closed(self, reason):
print('爬虫已关闭')
使用`close()`方法
class MySpider(scrapy.Spider):
name = 'myspider'
def close(self, reason):
print('关闭爬虫')
super().close(reason)
设置超时自动停止爬虫
在Scrapy中设置超时
DOWNLOAD_TIMEOUT = 300 设置下载超时时间,单位秒
处理异常以在错误时停止爬虫
try:
爬虫代码
except Exception as e:
print(f"发生异常:{e}")
sys.exit(1)
发送外部信号以终止爬虫
import os
os.kill(os.getpid(), signal.SIGTERM) 发送终止信号
以上方法可以帮助您优雅地停止Python爬虫。您可以根据爬虫的具体实现和使用的框架选择合适的方法