要使用Python爬取图片并保存到指定文件夹,你可以按照以下步骤操作:
1. 导入必要的库:
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
2. 获取网页源代码:
url = 'http://example.com' 替换为你想爬取的网站链接
response = requests.get(url)
html_content = response.text
3. 解析网页内容,提取图片标签:
soup = BeautifulSoup(html_content, 'html.parser')
img_tags = soup.find_all('img')
4. 遍历图片标签,提取图片URL,并保存到指定文件夹:
target_folder = 'path/to/your/folder' 替换为你想保存图片的文件夹路径
if not os.path.exists(target_folder):
os.makedirs(target_folder)
for img in img_tags:
img_url = img.get('src')
if not img_url:
continue
img_url = urljoin(url, img_url) 确保URL是完整的
filename = os.path.join(target_folder, img_url.split('/')[-1]) 提取文件名
response = requests.get(img_url, stream=True)
with open(filename, 'wb') as f:
for chunk in response.iter_content(chunk_size=8192):
f.write(chunk)
以上代码会遍历指定网页中的所有``标签,提取图片的URL,并将图片保存到指定的文件夹中。请确保替换`http://example.com`和`path/to/your/folder`为实际的网址和目标文件夹路径。
如果你需要处理分页或者更复杂的网站结构,你可能需要进一步定制代码,比如使用正则表达式匹配URL或者解析JavaScript生成的内容。
请注意,爬取网站内容应遵守网站的`robots.txt`文件规定,并且要尊重版权和隐私法律。此外,频繁的请求可能会给网站服务器带来负担,因此请合理安排爬取频率