python - 过滤掉 HTML 标签并解析 python 中的实体

标签 python html

因为正则表达式让我害怕,我正在尝试找到一种方法来删除所有 HTML 标记并从 Python 中的字符串中解析 HTML 实体。

最佳答案

使用 lxml这是python最好的xml/html库。

import lxml.html
t = lxml.html.fromstring("...")
t.text_content()

如果您只想清理 html,请查看 lxml.html.clean module

关于python - 过滤掉 HTML 标签并解析 python 中的实体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37486/

相关文章:

python - stdout 不会在 Windows 命令提示符上刷新,但可以在 OSX 和 Linux 上运行

python - Flask 蓝图正确使用

javascript - 为幻灯片制作适当的淡入和淡出

java - 如何迭代速度模板中的嵌套 map ?

python - 抑制 pandas 数据框中大量数字的科学记数法

python - 在 Python 中读取文件不会读取第一行

Python - 如何沿给定轴寻址数组?

html - 缩放后的文字模糊

jquery - 更改滚动条上 Bootstrap 导航栏的颜色

php - super 奇怪的 HTML 搞砸了