爬虫抓取电话号码通常需要以下步骤:
2. 使用Python的`requests`库发送HTTP请求获取网页内容。
3. 使用正则表达式(`re`库)匹配和提取电话号码。
import re
import requests
爬取电话号码的URL
url = "http://changyongdianhuahaoma.51240.com/"
请求头,模拟浏览器访问
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"
}
发送请求,获取网页内容
response = requests.get(url, headers=headers).text
定义正则表达式,匹配电话号码
假设电话号码格式为:xxx-xxxx-xxxx 或 xxx.xxxx.xxxx
pattern = re.compile(r"(\d{3}-\d{4}-\d{4}|\d{3}\.\d{4}\.\d{4})")
使用正则表达式提取电话号码
matches = pattern.findall(response)
打印提取到的电话号码
for match in matches:
print(match)
请注意,实际应用中,电话号码的格式可能有所不同,你需要根据目标网站的具体情况调整正则表达式。此外,确保在爬取数据时遵守网站的`robots.txt`规则,并尊重网站所有者的意愿。
如果你需要爬取的是微信号码等其他类型的数据,可能需要使用不同的库,例如`itchat`,但这通常涉及到用户认证和更复杂的数据处理。