python - 如何使用 Universal Feed Parser 删除 html 标签？

文档列出了默认允许/删除的标签:

但它没有说明如何指定要删除的附加标签。

有没有办法使用 Universal Feed Parser 来做到这一点，或者您是否必须使用自己的正则表达式和/或 Beautiful Soup 之类的东西进行进一步处理？

最佳答案

我快速查看了代码，我认为没有办法直接覆盖它们。但是您可以覆盖 feedparser._HTMLSanitizer.acceptable_elements，这是在执行 feedparser.parse

之前不会被删除的标签列表

关于python - 如何使用 Universal Feed Parser 删除 html 标签？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/815606/

相关文章：

python - 通过关键列合并一列的中位数 - SFrame/Pandas