安装必要的库
使用`pip`安装`requests`和`BeautifulSoup`库。
pip install requests beautifulsoup4
导入库
在你的Python脚本中导入这些库。
import requests
from bs4 import BeautifulSoup
定义URL和爬取内容
设置你想要爬取的网站URL。
url = 'https://example.com'
发送请求和解析响应
使用`requests.get`发送HTTP请求,并获取网页内容。
使用`BeautifulSoup`解析HTML内容。
response = requests.get(url)
html_content = response.text
soup = BeautifulSoup(html_content, 'html.parser')
提取所需数据
使用BeautifulSoup选择器提取网页中的数据。
title = soup.title.string
print('网页标题:', title)
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.get_text())
设置模块参数 (可选):根据需要设置代理、处理异常、设置延迟等。
保存数据(可选):
将提取的数据保存到文件或数据库中。
重复以上步骤
对多个网页进行爬取。
数据进一步处理和分析(可选):
对爬取到的数据进行清洗、转换或分析。
以上步骤提供了一个基本的框架,你可以根据实际需求进行扩展和优化。如果你需要更复杂的爬虫框架,可以考虑使用像`Scrapy`这样的框架,它提供了更多的功能和更好的扩展性。