python - 使用正则表达式和 python 替换 HTML 标签

我有一个 Python 脚本，它将查看具有以下格式的 HTML 文件:

<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>

如何在 Python 中使用正则表达式删除所有 HTML 标签(将标签替换为“”)，打开和关闭 DOC 标签除外？另外，如果我想保留标签的替代文本，正则表达式应该是什么样的？

最佳答案

对于您要实现的目标，我会使用 BeautifulSoup 而不是正则表达式。

关于python - 使用正则表达式和 python 替换 HTML 标签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1484575/

相关文章：

javascript - 删除 HTML 文件中的任何字符串 python