爬虫是一种自动获取网页内容的程序,通常用于数据抓取。在获取特定网站上的信息时,需要遵循网站的使用条款,并尊重版权和隐私权。以下是一个简单的Python爬虫示例,用于获取指定网站上的图片链接,并下载这些图片。
```python
import requests
from bs4 import BeautifulSoup
import os
定义请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
定义一个函数,用于获取指定页面的图片链接列表
def get_image_links(url):
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding 确保正确编码
soup = BeautifulSoup(response.text, 'html.parser')
image_links = [img['src'] for img in soup.find_all('img', src=True)]
return image_links
定义一个函数,用于下载图片
def download_images(image_links, save_path):
if not os.path.exists(save_path):
os.makedirs(save_path)
for i, link in enumerate(image_links):
filename = os.path.join(save_path, f'image_{i}.jpg')
response = requests.get(link, headers=headers)
with open(filename, 'wb') as f:
f.write(response.content)
主程序
if __name__ == '__main__':
start_url = 'http://www.meizitu.com/a/more_1.html' 起始页面
save_path = 'downloaded_images' 保存图片的路径
获取图片链接列表
image_links = get_image_links(start_url)
下载图片
download_images(image_links, save_path)
请注意,这个示例仅用于教学目的,实际使用时需要遵守相关法律法规和网站的使用条款。此外,网站的结构可能会变化,因此可能需要对代码进行相应的调整。