爬取企业数据通常涉及以下步骤:
导入必要的库
import requests
from bs4 import BeautifulSoup
import pandas as pd
发送HTTP请求并获取页面内容
url = '目标网址' 替换为要爬取的网页URL
response = requests.get(url)
content = response.content 去掉第一行HTML注释
解析页面内容
soup = BeautifulSoup(content, 'lxml') 使用lxml解析器
定位要爬取的数据
示例:提取所有的标题
titles = soup.find_all('h1')
for title in titles:
print(title.text)
提取数据并存储
示例:提取公司名称、注册地址、所在行业、注册日期
data = soup.find_all('div', class_='data') 替换为实际的HTML元素定位方式
results = []
for item in data:
company_name = item.find('div', class_='company_name').text
registration_address = item.find('div', class_='registration_address').text
industry = item.find('div', class_='industry').text
registration_date = item.find('div', class_='registration_date').text
results.append([company_name, registration_address, industry, registration_date])
将提取的数据保存到DataFrame
df = pd.DataFrame(results, columns=['公司名称', '注册地址', '所在行业', '注册日期'])
df.to_excel('company_info.xlsx', index=False)
请根据目标网站的具体HTML结构修改上述代码中的元素定位方式。同时,注意遵守网站的爬虫政策,避免频繁请求导致IP被封禁。