爬取企业数据通常涉及以下步骤:
导入必要的库
import requestsfrom bs4 import BeautifulSoupimport pandas as pd
发送HTTP请求并获取页面内容
url = '目标网址' 替换为要爬取的网页URLresponse = requests.get(url)content = response.content 去掉第一行HTML注释
解析页面内容
soup = BeautifulSoup(content, 'lxml') 使用lxml解析器

定位要爬取的数据
示例:提取所有的标题titles = soup.find_all('h1')for title in titles:print(title.text)
提取数据并存储
示例:提取公司名称、注册地址、所在行业、注册日期data = soup.find_all('div', class_='data') 替换为实际的HTML元素定位方式results = []for item in data:company_name = item.find('div', class_='company_name').textregistration_address = item.find('div', class_='registration_address').textindustry = item.find('div', class_='industry').textregistration_date = item.find('div', class_='registration_date').textresults.append([company_name, registration_address, industry, registration_date])将提取的数据保存到DataFramedf = pd.DataFrame(results, columns=['公司名称', '注册地址', '所在行业', '注册日期'])df.to_excel('company_info.xlsx', index=False)
请根据目标网站的具体HTML结构修改上述代码中的元素定位方式。同时,注意遵守网站的爬虫政策,避免频繁请求导致IP被封禁。
