在Python爬虫中,如果你只想爬取第一个页面,你可以采用以下方法:
使用`requests.get`并取消后续请求
import requests
发送 GET 请求获取第一个页面
response = requests.get("https://example.com")
取消所有后续请求
response.close()
使用`scrapy.Request`并在`callback`中返回`None`
import scrapy
class MySpider(scrapy.Spider):
name = "my_spider"
start_urls = ["https://example.com"]
def parse(self, response):
处理第一个页面内容
...
返回 None 停止爬取后续页面
return None
在`scrapy.Spider`中重写`start_requests`方法
import scrapy
class MySpider(scrapy.Spider):
name = "my_spider"
start_urls = ["https://example.com"]
def start_requests(self):
发送第一个请求
yield scrapy.Request(self.start_urls, self.parse)
def parse(self, response):
处理第一个页面内容
...
返回 None 停止爬取后续页面
return None
以上方法可以帮助你实现只爬取第一个页面的需求。