rss - 如何抓取提要

标签 rss web-crawler feed atom-feed

我的应用程序需要跟踪 RSS/Atom 提要并将新条目保存在数据库中。我的问题是,确定提要中的条目是否已被抓取的最可靠方法是什么?

我使用 Universal Feed Parser解析提要的模块。我当前的实现记录了 feed.entry[i].updated_pa​​rsed 的最新值,当爬行时如果条目的 updated_pa​​rsed 值大于记录值,那么条目保存在数据库中。这里的问题是许多提要没有发布日期或更新日期。

最佳答案

您应该确定您是否已经通过引用其 <guid> 来抓取条目主要是(回退到 <link> 在没有 <guid> 的情况下),任何与日期有关的事情都只是作为次要分析。

关于rss - 如何抓取提要,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/692266/

相关文章:

Spring 集成 RSS 源 - 403 错误

css - 在网络抓取期间获取 CSS 计算样式

python - Scrapy 中的项目缓存

html - 如何使可选择的文本与显示的不同

javascript - 允许 JavaScript 正则表达式中的换行符

javascript - 在没有 tierce 服务的 JS 中解析 RSS(vanilla JS 或 Angular)

java - Android - 解析 RSS 提要时出现 UnknownHost 异常

python - 像 pubsubhubbub 这样不依赖于谷歌应用引擎的东西

wordpress - 如何使用 tumblr API 或 Tumblr Rss feed 获取所有帖子

google-calendar-api - 有关生成 iCal Feed 的问题