在Python中处理HTML,通常有以下几种方法:
HTMLParser
HTMLParser是Python标准库中的一个模块,用于解析HTML文档。它采用事件驱动模式,当解析器遇到HTML中的特定标记时,会调用用户定义的回调函数。
from HTMLParser import HTMLParser
class MyParser(HTMLParser):
def handle_starttag(self, tag, attrs):
print(tag)
def handle_data(self, data):
print(data)
创建一个HTMLParser实例
parser = MyParser()
解析HTML内容
html_content = "
Hello, world!