在Python爬虫中,`re` 是指正则表达式模块(Regular Expression Module),它是Python的一个内置模块,用于处理正则表达式。正则表达式是一种强大的文本处理工具,用于匹配、查找、替换复杂的文本模式。
`re.compile()`:将正则表达式字符串编译为一个正则表达式对象,以提高匹配效率。
`re.match()`:从字符串开头尝试匹配正则表达式。
`re.search()`:在整个字符串中搜索匹配正则表达式的第一个位置。
`re.findall()`:返回字符串中所有匹配正则表达式的子串列表。
正则表达式中的元字符具有特殊的含义,例如:
`.`:匹配除换行符以外的任意字符。
`\w`:匹配字母、数字、下划线。
`\s`:匹配任意空白符。
`\d`:匹配数字。
`\n`:匹配换行符。
`\t`:匹配制表符。
使用正则表达式可以使爬虫更灵活地处理和分析网页内容