在Python中打开PDF文件,你可以使用不同的库,以下是几个常用的库及其使用方法:
使用PyPDF2
import PyPDF2
打开PDF文件
with open('example.pdf', 'rb') as file:
pdf_reader = PyPDF2.PdfFileReader(file)
获取PDF文件中的页数
num_pages = pdf_reader.numPages
读取每一页的内容
for page_num in range(num_pages):
page = pdf_reader.getPage(page_num)
text = page.extractText()
print(text)
使用pikepdf
import pikepdf
打开PDF文件
pdf = pikepdf.open('test.pdf')
获取PDF有几页
print(f"这个PDF有 {len(pdf.pages)} 页")
使用pdfminer3k
from pdfminer.high_level import extract_text
打开PDF文件
with open('example.pdf', 'rb') as file:
text = extract_text(file)
print(text)
使用PyMuPDF(fitz)
import fitz 注意:在1.24.3版本之前,顶级Python导入名称是“fitz”
打开PDF文件
doc = fitz.open('example.pdf')
获取文档页数
page_count = doc.page_count
遍历每一页
for page_num in range(page_count):
page = doc.load_page(page_num)
text = page.get_text()
print(text)
使用pdfplumber
import pdfplumber
打开PDF文件
with pdfplumber.open('example.pdf') as pdf:
for page in pdf.pages:
print(page.extract_text()) 每页打印文本内容
选择合适的库取决于你的具体需求,例如,如果你需要合并PDF文件或插入文本,可能需要使用像pikepdf或PyMuPDF这样的库。如果你只需要提取文本内容,PyPDF2、pdfminer3k或pdfplumber都是不错的选择。
请确保在尝试这些代码之前,你已经安装了相应的Python库。你可以使用`pip`命令来安装,例如:
pip install PyPDF2
pip install pikepdf
pip install pdfminer3k
pip install pymupdf
pip install pdfplumber