我的应用程序需要跟踪 RSS/Atom 提要并将新条目保存在数据库中。我的问题是,确定提要中的条目是否已被抓取的最可靠方法是什么?
我使用 Universal Feed Parser解析提要的模块。我当前的实现记录了 feed.entry[i].updated_parsed
的最新值,当爬行时如果条目的 updated_parsed
值大于记录值,那么条目保存在数据库中。这里的问题是许多提要没有发布日期或更新日期。
最佳答案
您应该确定您是否已经通过引用其 <guid>
来抓取条目主要是(回退到 <link>
在没有 <guid>
的情况下),任何与日期有关的事情都只是作为次要分析。
关于rss - 如何抓取提要,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/692266/