在Python中识别和处理Word文档,你可以使用`python-docx`库。以下是使用`python-docx`库读取Word文档的基本步骤:
1. 安装`python-docx`库:
```
pip install python-docx
2. 导入`python-docx`库中的`Document`类:
```python
from docx import Document
3. 打开Word文档:
```python
doc = Document('example.docx') 替换为你的Word文档路径
4. 读取文档中的所有段落内容:
```python
for para in doc.paragraphs:
print(para.text)
5. 读取文档中的所有表格内容:
```python
for table in doc.tables:
for row in table.rows:
for cell in row.cells:
print(cell.text)
以上代码会打开名为`example.docx`的Word文档,并读取文档中的所有段落和表格内容。
如果你需要更详细的操作,比如逐行读取文档,可以使用以下代码:
```python
for para in doc.paragraphs:
for line in para.lines:
print(line.text)