我有一个 Python 脚本,它将查看具有以下格式的 HTML 文件:
<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>
如何在 Python 中使用正则表达式删除所有 HTML 标签(将标签替换为“”),打开和关闭 DOC 标签除外?另外,如果我想保留标签的替代文本,正则表达式应该是什么样的?
最佳答案
对于您要实现的目标,我会使用 BeautifulSoup 而不是正则表达式。
关于python - 使用正则表达式和 python 替换 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1484575/