爬取在线题库通常涉及以下步骤:
获取网页内容:
使用`requests`库的`get`方法来获取目标网页的HTML内容。
解析网页内容:
利用`BeautifulSoup`库解析HTML,提取所需信息,如题目、答案等。
保存数据:
将提取的数据保存到文件或数据库中。
```python
import requests
from bs4 import BeautifulSoup
爬取网页内容
url = 'http://example.com/question-bank' 替换为实际的题库网址
response = requests.get(url)
html_content = response.text
解析网页内容
soup = BeautifulSoup(html_content, 'html.parser')
提取题目和答案等信息
questions = soup.find_all('div', class_='question') 根据实际情况修改选择器
for question in questions:
title = question.find('h2').text 提取题目标题
answer = question.find('div', class_='answer').text 提取答案
保存题目和答案到文件
with open('questions.txt', 'a') as f:
f.write(f'Title: {title}\nAnswer: {answer}\n\n')
请注意,实际操作中需要根据目标网站的具体结构来调整选择器和解析逻辑。另外,请确保遵守目标网站的使用条款和条件,以及相关的法律法规。如果遇到反爬虫机制,可能需要采取相应的策略,如设置合理的请求间隔、使用代理IP等。