python如何获取网页上所有html

小六 /2025-06-21 14:04:05 /16 浏览量

0621

要使用Python获取web页面上的所有网址，你可以使用`requests`库来发送HTTP请求，并使用`BeautifulSoup`库来解析HTML内容，然后提取出所有的链接。以下是一个简单的示例代码：

```python

import requests

from bs4 import BeautifulSoup

def get_all_links（url）:

response = requests.get（url）

soup = BeautifulSoup（response.text, 'html.parser'）

links = [a['href'] for a in soup.find_all（'a', href=True） if a['href'].startswith（（'http://', 'https://'））]

return links

测试示例

url = 'https://example.com'

all_links = get_all_links（url）

for link in all_links:

print（link）

这段代码会发送一个HTTP GET请求到指定的URL，使用BeautifulSoup解析返回的HTML内容，然后找到所有的``标签，并提取出`href`属性的值，也就是链接地址。注意，这里我们只提取了以`http://`或`https://`开头的链接，以避免提取到相对路径或无效链接。

-- 展开阅读全文 --

« 上一篇2025-06-10

下一篇 » 2025-01-15