爬取简历信息通常需要遵循以下步骤:
发送HTTP请求:
使用`requests`库发送HTTP请求以获取网页内容。
解析网页内容:
使用`BeautifulSoup`或`lxml`库解析HTML内容。
提取所需信息:
使用XPath或CSS选择器提取所需信息,如姓名、联系方式、工作经验等。
保存数据:
将提取的数据保存到数据库或文件中。
import requests
from bs4 import BeautifulSoup
import os
设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'
}
爬取简历页面
def crawl_resume_page(url):
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
else:
return None
解析页面内容
def parse_page(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
提取简历信息,这里以提取姓名和联系方式为例
name = soup.find('div', class_='name').text
contact = soup.find('div', class_='contact').text
return name, contact
保存数据到文件
def save_data_to_file(data, filename):
with open(filename, 'w', encoding='utf-8') as f:
f.write(data)
主程序
def main():
base_url = 'http://example.com/resume/' 替换为实际的简历网站URL
resume_number = '100' 替换为实际的简历编号
url = f'{base_url}{resume_number}'
html_content = crawl_resume_page(url)
if html_content:
name, contact = parse_page(html_content)
data = f'姓名:{name}\n联系方式:{contact}\n'
save_data_to_file(data, 'resume_info.txt')
print('简历信息已保存到resume_info.txt')
else:
print('无法获取简历信息')
if __name__ == '__main__':
main()
请注意,实际使用时需要根据目标网站的具体结构修改解析逻辑,并确保遵守网站的爬虫政策。如果目标网站有反爬虫机制,可能还需要处理验证码、IP封锁等问题。