文章目录
htmlparser_2">1 html.parser
html.parser是Python标准库中的一个模块,用于解析和处理HTML。
它的核心类是HTMLParser,这个类提供了多种方法,允许你处理HTML文档的各个部分。
通过继承这个类并重写其提供的回调方法,可以自定义对HTML标签、属性和内容的处理方式。
1.1 初始化和基础使用
from html.parser import HTMLParser# 创建自定义解析器类,继承HTMLParser
class MyHTMLParser(HTMLParser):def handle_starttag(self, tag, attrs):print(f"开始tag: {tag}")if attrs:for attr in attrs:print(f" Attribute: {attr}")def handle_endtag(self, tag):print(f"结束tag: {tag}")def handle_data(self, data):print(f"数据: {data}")# 创建解析器实例
parser = MyHTMLParser()