python - 过滤掉 HTML 标签并解析 python 中的实体

标签 python html

因为正则表达式让我害怕，我正在尝试找到一种方法来删除所有 HTML 标记并从 Python 中的字符串中解析 HTML 实体。

最佳答案

使用 lxml这是python最好的xml/html库。

import lxml.html
t = lxml.html.fromstring("...")
t.text_content()

如果您只想清理 html，请查看 lxml.html.clean module

关于python - 过滤掉 HTML 标签并解析 python 中的实体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37486/

上一篇：python - 尝试访问第 N 个项目时出现 "IndexError: list index out of range"是否意味着我的列表中的项目少于 N 个？

下一篇：python - django，使用 ugettext_lazy 时出现 "is not JSON serializable"？

相关文章：

python - stdout 不会在 Windows 命令提示符上刷新，但可以在 OSX 和 Linux 上运行

python - Flask 蓝图正确使用

javascript - 为幻灯片制作适当的淡入和淡出

java - 如何迭代速度模板中的嵌套 map ？

python - 抑制 pandas 数据框中大量数字的科学记数法

python - 在 Python 中读取文件不会读取第一行

Python - 如何沿给定轴寻址数组？

html - 缩放后的文字模糊

jquery - 更改滚动条上 Bootstrap 导航栏的颜色

php - super 奇怪的 HTML 搞砸了

©2024 IT工具网联系我们