在Python中解析HTML,你可以使用两种主要的方法:使用Python标准库中的`html.parser`模块,或者使用第三方库如`BeautifulSoup`。下面是使用这两种方法解析HTML的基本步骤:
使用`html.parser`模块
1. 导入`HTMLParser`类。
2. 创建一个继承自`HTMLParser`的子类,并重写相关方法。
3. 使用`HTMLParser`的`feed`方法解析HTML字符串。
```python
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def __init__(self):
super().__init__()
self.selected_tags = ['html', 'body', 'table', 'head', 'meta', 'style', 'tr', 'td']
self.reset()
def handle_starttag(self, tag, attrs):
if tag in self.selected_tags:
print(f"Start tag: {tag}")
def handle_endtag(self, tag):
if tag in self.selected_tags:
print(f"End tag: {tag}")
def handle_data(self, data):
if data.strip():
print(f"Data: {data.strip()}")
初始化解析器
parser = MyHTMLParser()
HTML字符串
html_string = "
数据1 | 数据2 |