python - 使用正则表达式和 python 替换 HTML 标签

标签 python html regex tags

我有一个 Python 脚本,它将查看具有以下格式的 HTML 文件:

<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>

如何在 Python 中使用正则表达式删除所有 HTML 标签(将标签替换为“”),打开和关闭 DOC 标签除外?另外,如果我想保留标签的替代文本,正则表达式应该是什么样的?

最佳答案

对于您要实现的目标,我会使用 BeautifulSoup 而不是正则表达式。

http://www.crummy.com/software/BeautifulSoup/

关于python - 使用正则表达式和 python 替换 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1484575/

相关文章:

javascript - 删除 HTML 文件中的任何字符串 python

python抽象基类,mixin和抽象方法的区别

python - 检查 NaT 或 pandas 时间戳

javascript - setInterval 是否因手机设备而异?

java - 正则表达式匹配 2 还是不匹配?

python - Python 解释器如何在动态类型中工作?

html - html中的处理指令未关闭错误

html - knitr 的 html 输出中的标题

c - 如何从源文件中提取单个函数

c# - 禁止对 Dropbox 使用正则表达式的特定字符