要使用Python爬虫获取翻页数据,你可以遵循以下步骤:
识别翻页机制
观察网页的URL或请求方式,找出翻页链接的变化规律。
如果是GET请求,通常翻页链接中会包含页码参数,如`page=2`。
如果是POST请求,可能需要观察请求体中是否有规律性的数据变化。
构造翻页请求
根据翻页机制,修改请求的URL或请求体中的参数,以访问不同的页面。
例如,如果是GET请求,修改URL中的页码参数,如`http://example.com/page1.html`变为`http://example.com/page2.html`。
解析翻页页面
使用`requests`库发送带有新页码参数的请求,获取新的HTML页面。
使用`BeautifulSoup`或其他HTML解析库解析新页面的HTML代码,定位所需数据。

遍历所有页面
使用循环结构,如`for`循环,遍历所有页面。
在每次循环中,重复步骤2和3,直到获取所有页面的数据。
import requestsfrom bs4 import BeautifulSoup初始化URL和headersbase_url = 'http://example.com/page{}'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'}初始化数据列表all_data = []遍历所有页面for page in range(1, 6): 假设总共有5页构造翻页URLurl = base_url.format(page)发送GET请求response = requests.get(url, headers=headers)解析HTML内容soup = BeautifulSoup(response.text, 'html.parser')定位并提取数据假设数据在class为'my-data'的div中data_div = soup.find('div', class_='my-data')data_list = data_div.find_all('div', class_='item') 假设每个数据项都在一个class为'item'的div中提取所需数据,这里以提取文本为例for item in data_list:text = item.get_text()all_data.append(text)输出所有数据for data in all_data:print(data)
请注意,这只是一个示例,实际应用中你需要根据目标网站的具体结构来定位和提取数据。同时,确保遵守目标网站的爬虫政策,避免对服务器造成过大负担。
