python - 从Python中的字符串中删除html标签和实体

我从 api.careerbuilder.com 获取 xml 数据特别是，该字符串包含一些我愿意删除的 html 实体，但没有效果!

我尝试过这样做:

import re
re.sub('\&amp;lt;.*?\&amp;gt;', '', job_title_text)

还有这个

from html.parser import HTMLParser
class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

strip_tags(job_title_text)

最后是这个

import lxml.html
(lxml.html.fromstring(job_title_text)).text_content()

但所有这些都失败了。第二种方法删除了“&”等 html 实体，但保留了标签内的文本，例如“pbrspan”。第三个完全毁了一切，根本没有显示任何数据，而是

< bound method HtmlElement.text_content of < Element html at 0x33717d8> >

最后，我怀疑我编写的正则表达式完全错误。有什么想法，如何处理？

最佳答案

尝试这个正则表达式

(\<).*?(\>)

关于python - 从Python中的字符串中删除html标签和实体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20766217/

上一篇：python - 从读取的文件中删除回车键 (\n)

下一篇：python - 是否可以操作 dbf header 和 IE 字段更改顺序？

相关文章：

python - 如何在 seaborn/matplotlib 中放大直方图？

javascript - 如何通过javascript/jquery获取单元格中的元素行？

html - 你会将 Twitter Bootstrap 用于内部网/业务应用程序吗？

html - 我想做图像中心

javascript - 使用偏移原点在 Canvas 中缩放图像

python - Python 中的 __hash__ 函数

python - 我在 python 中使用 pyttsx3 时收到 "member not found"错误

python - Pandas 将 mysql int 转换为 float64

python - 为什么我的 QStandardItemModel itemFromIndex 方法返回 None？ (索引无效)

html - 如何对齐 block 中的两个行内元素