我想要一个正则表达式来从 HTML 页面中提取标题。目前我有这个:
title = re.search('<title>.*</title>', html, re.IGNORECASE).group()
if title:
title = title.replace('<title>', '').replace('</title>', '')
是否有正则表达式可以仅提取 <title> 的内容,这样我就不必删除标签?
最佳答案
在正则表达式和 group(1)
中使用 (
)
在python中检索捕获的字符串(re.search
如果找不到结果将返回None
,所以不要直接使用group()
):
title_search = re.search('<title>(.*)</title>', html, re.IGNORECASE)
if title_search:
title = title_search.group(1)
关于python - 提取正则表达式匹配的一部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1327369/