爬取网页内容通常需要以下几个步骤:
1. 导入必要的库,如 `requests` 和 `BeautifulSoup`。
2. 使用 `requests.get` 方法发送 HTTP 请求以获取网页内容。
3. 使用 `BeautifulSoup` 解析 HTML 响应。
4. 使用 `find_all()` 和 `find()` 方法从 HTML 中提取所需信息。
下面是一个简单的示例代码,展示了如何使用 Python 3 爬取网页内容:
```python
导入必要的库
import requests
from bs4 import BeautifulSoup
目标网页 URL
url = 'http://example.com'
发送 GET 请求
response = requests.get(url)
检查请求是否成功
if response.status_code == 200:
获取网页内容
html_content = response.text
else:
print('网页获取失败!')
exit()
使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')
提取网页标题
title = soup.title.string
print('网页标题:', title)
提取所有链接
links = soup.find_all('a')
for link in links:
print('链接文本:', link.string)
print('链接地址:', link.get('href'))
请根据实际需要修改上述代码中的 URL 和提取信息的方式。如果你需要处理代理、设置用户代理或处理异常,可以参考前面提供的参考信息中的代码示例。