因为正则表达式让我害怕,我正在尝试找到一种方法来删除所有 HTML 标记并从 Python 中的字符串中解析 HTML 实体。
最佳答案
使用 lxml这是python最好的xml/html库。
import lxml.html
t = lxml.html.fromstring("...")
t.text_content()
如果您只想清理 html,请查看 lxml.html.clean module
关于python - 过滤掉 HTML 标签并解析 python 中的实体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37486/