要使用Python爬取图片并保存到指定文件夹,你可以按照以下步骤操作:
1. 导入必要的库:
import osimport requestsfrom bs4 import BeautifulSoupfrom urllib.parse import urljoin
2. 获取网页源代码:
url = 'http://example.com' 替换为你想爬取的网站链接response = requests.get(url)html_content = response.text
3. 解析网页内容,提取图片标签:
soup = BeautifulSoup(html_content, 'html.parser')img_tags = soup.find_all('img')

4. 遍历图片标签,提取图片URL,并保存到指定文件夹:
target_folder = 'path/to/your/folder' 替换为你想保存图片的文件夹路径if not os.path.exists(target_folder):os.makedirs(target_folder)for img in img_tags:img_url = img.get('src')if not img_url:continueimg_url = urljoin(url, img_url) 确保URL是完整的filename = os.path.join(target_folder, img_url.split('/')[-1]) 提取文件名response = requests.get(img_url, stream=True)with open(filename, 'wb') as f:for chunk in response.iter_content(chunk_size=8192):f.write(chunk)
以上代码会遍历指定网页中的所有``标签,提取图片的URL,并将图片保存到指定的文件夹中。请确保替换`http://example.com`和`path/to/your/folder`为实际的网址和目标文件夹路径。
如果你需要处理分页或者更复杂的网站结构,你可能需要进一步定制代码,比如使用正则表达式匹配URL或者解析JavaScript生成的内容。
请注意,爬取网站内容应遵守网站的`robots.txt`文件规定,并且要尊重版权和隐私法律。此外,频繁的请求可能会给网站服务器带来负担,因此请合理安排爬取频率
