爬取简历信息通常需要遵循以下步骤:
发送HTTP请求:
使用`requests`库发送HTTP请求以获取网页内容。
解析网页内容:
使用`BeautifulSoup`或`lxml`库解析HTML内容。
提取所需信息:
使用XPath或CSS选择器提取所需信息,如姓名、联系方式、工作经验等。
保存数据:
将提取的数据保存到数据库或文件中。
import requestsfrom bs4 import BeautifulSoupimport os设置请求头,模拟浏览器访问headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}爬取简历页面def crawl_resume_page(url):response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:return None解析页面内容def parse_page(html_content):soup = BeautifulSoup(html_content, 'html.parser')提取简历信息,这里以提取姓名和联系方式为例name = soup.find('div', class_='name').textcontact = soup.find('div', class_='contact').textreturn name, contact保存数据到文件def save_data_to_file(data, filename):with open(filename, 'w', encoding='utf-8') as f:f.write(data)主程序def main():base_url = 'http://example.com/resume/' 替换为实际的简历网站URLresume_number = '100' 替换为实际的简历编号url = f'{base_url}{resume_number}'html_content = crawl_resume_page(url)if html_content:name, contact = parse_page(html_content)data = f'姓名:{name}\n联系方式:{contact}\n'save_data_to_file(data, 'resume_info.txt')print('简历信息已保存到resume_info.txt')else:print('无法获取简历信息')if __name__ == '__main__':main()
请注意,实际使用时需要根据目标网站的具体结构修改解析逻辑,并确保遵守网站的爬虫政策。如果目标网站有反爬虫机制,可能还需要处理验证码、IP封锁等问题。

