python爬虫用哪个模块

Python爬虫常用的模块包括：

Python标准库之一，用于打开URL和HTTP协议。在Python 3.x中，urllib库和urllib2库合并成了urllib库。

基于urllib的HTTP库，使用Apache2许可证，比urllib更方便，可以节省很多时间。

一个用于从HTML和XML文件中提取数据的Python库，通过转换器实现文档导航、查找和修改。

一个高性能的HTML和XML解析库，常与Beautiful Soup结合使用。

一个强大的网页解析库，语法类似于jQuery，易于使用。

一个自动化测试工具，可以模拟真实浏览器，支持多种浏览器，用于处理JavaScript异步加载的页面。

一个快速、高层次的网页抓取框架，用于抓取网站数据并提取结构化数据。

一个分布式任务队列，用于处理大量信息，支持任务调度。

一个由台湾开发者创建的简单爬虫框架，可以自动抓取某个网站的所有内容。

支持关系和非关系数据库的高速爬虫框架。

一个开源可视化爬虫工具，基于scrapy内核，无需编程知识即可爬取网站。

选择合适的模块或框架取决于爬虫的需求，包括爬取静态或动态网站、数据量大小、是否需要分布式爬取等。对于简单的任务，可能只需要使用requests和Beautiful Soup；而对于复杂的任务，则可能需要使用Scrapy或selenium。