在Python中爬取Excel表格数据通常涉及以下步骤:
安装必要的库
使用`pip`安装`pandas`和`openpyxl`库,如果需要写入Excel文件,可能还需要`xlwt`或`xlsxwriter`。
pip install pandas openpyxl
读取Excel文件
使用`pandas`的`read_excel`函数读取Excel文件。
import pandas as pddf = pd.read_excel('path_to_excel_file.xlsx')print(df.head())
使用`openpyxl`库读取Excel文件。
from openpyxl import load_workbookworkbook = load_workbook('example.xlsx')sheet = workbook['Sheet1']for row in sheet.iter_rows(min_row=1, max_row=sheet.max_row, min_col=1, max_col=sheet.max_column):for cell in row:print(cell.value)
爬取数据
如果数据来自网页,可以使用`requests`和`BeautifulSoup`库爬取数据。
import requestsfrom bs4 import BeautifulSoupresponse = requests.get('http://example.com/excel_data')soup = BeautifulSoup(response.text, 'html.parser')解析网页内容获取数据

处理数据
对爬取到的数据进行清洗、转换等操作。
写入Excel文件
使用`pandas`直接将数据写入Excel文件。
df.to_excel('output.xlsx', index=False)
使用`openpyxl`创建新的Excel文件并写入数据。
from openpyxl import Workbookwb = Workbook()ws = wb.activews['A1'] = 'Hello'ws['B1'] = 'World'wb.save('new_excel_file.xlsx')
使用`xlwt`或`xlsxwriter`库写入Excel文件(如果使用`xlwt`,则需要安装该库)。
import xlwtworkbook = xlwt.Workbook()worksheet = workbook.add_sheet('Sheet1')worksheet.write(0, 0, 'Hello')worksheet.write(0, 1, 'World')workbook.save('new_excel_file.xls')
请根据你的具体需求选择合适的方法。
