python - 如何使用 Universal Feed Parser 删除 html 标签?

标签 python django feed parsing

文档列出了默认允许/删除的标签:

http://www.feedparser.org/docs/html-sanitization.html

但它没有说明如何指定要删除的附加标签。

有没有办法使用 Universal Feed Parser 来做到这一点,或者您是否必须使用自己的正则表达式和/或 Beautiful Soup 之类的东西进行进一步处理?

最佳答案

我快速查看了代码,我认为没有办法直接覆盖它们。但是您可以覆盖 feedparser._HTMLSanitizer.acceptable_elements,这是在执行 feedparser.parse

之前不会被删除的标签列表

关于python - 如何使用 Universal Feed Parser 删除 html 标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/815606/

相关文章:

python - 通过关键列合并一列的中位数 - SFrame/Pandas

javascript - 是否有一种正确的方法来确保一次只有一个用户使用 REST+HTTP 更改对象?

python - 无法在 Django 应用程序中创建图像字段

twitter - Redis pubsub 和 twitter 就像新闻源一样?

python - Pandas 时间戳索引到日期字符串列表

python - 了解 pandas join 的工作原理

python - 如何在 Django 中向查询集添加自定义属性?

xml - RSS 提要无效。未定义的项目元素 : content

java - 使用 Atom Reader 阅读困难

Python:多维字典到数组