爬取文件通常指的是从网络上下载文件,例如图片、文档等。在Python中,你可以使用`requests`库来下载文件。以下是一个简单的示例,展示了如何使用`requests`库下载文件:
import requests指定要下载的文件的URLurl = 'https://example.com/path/to/your/file.ext'发送GET请求response = requests.get(url)检查请求是否成功if response.status_code == 200:获取文件名filename = url.split('/')[-1]将文件内容写入到本地文件with open(filename, 'wb') as file:file.write(response.content)else:print(f"Failed to download file. Status code: {response.status_code}")
如果你需要下载的是网页上的图片或其他二进制文件,上面的方法同样适用。只需确保`url`指向的是正确的文件位置即可。
如果你需要下载的是文档,比如Word文档(.docx),你可以使用`python-docx`库。以下是一个示例,展示了如何使用`python-docx`库下载并保存Word文档:

from docx import Documentimport requests指定要下载的Word文档的URLurl = 'https://example.com/path/to/your/document.docx'发送GET请求response = requests.get(url)检查请求是否成功if response.status_code == 200:创建一个新的文档对象doc = Document()将下载的内容写入文档doc.add_paragraph(response.text)保存文档到本地doc.save('downloaded_document.docx')else:print(f"Failed to download document. Status code: {response.status_code}")
请注意,下载文件时要考虑到版权和合法性问题,确保下载的内容是合法可用的。
