爬虫抓取电话号码通常需要以下步骤:
2. 使用Python的`requests`库发送HTTP请求获取网页内容。
3. 使用正则表达式(`re`库)匹配和提取电话号码。
import reimport requests爬取电话号码的URLurl = "http://changyongdianhuahaoma.51240.com/"请求头,模拟浏览器访问headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"}发送请求,获取网页内容response = requests.get(url, headers=headers).text定义正则表达式,匹配电话号码假设电话号码格式为:xxx-xxxx-xxxx 或 xxx.xxxx.xxxxpattern = re.compile(r"(\d{3}-\d{4}-\d{4}|\d{3}\.\d{4}\.\d{4})")使用正则表达式提取电话号码matches = pattern.findall(response)打印提取到的电话号码for match in matches:print(match)
请注意,实际应用中,电话号码的格式可能有所不同,你需要根据目标网站的具体情况调整正则表达式。此外,确保在爬取数据时遵守网站的`robots.txt`规则,并尊重网站所有者的意愿。
如果你需要爬取的是微信号码等其他类型的数据,可能需要使用不同的库,例如`itchat`,但这通常涉及到用户认证和更复杂的数据处理。

