文档列出了默认允许/删除的标签:
http://www.feedparser.org/docs/html-sanitization.html
但它没有说明如何指定要删除的附加标签。
有没有办法使用 Universal Feed Parser 来做到这一点,或者您是否必须使用自己的正则表达式和/或 Beautiful Soup 之类的东西进行进一步处理?
最佳答案
我快速查看了代码,我认为没有办法直接覆盖它们。但是您可以覆盖 feedparser._HTMLSanitizer.acceptable_elements
,这是在执行 feedparser.parse
关于python - 如何使用 Universal Feed Parser 删除 html 标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/815606/