当从 rss 提要中检索和缓存/保存(在数据库中)一些帖子时,如何确定:
- 是同一篇文章(例如:当 Feed 中的一些拼写错误得到修复,或者如果标题更改、日期更改等...)
- 查找讨论同一主题的供稿(例如:来自不同来源的同一故事)
这些东西有什么最佳实践吗?
非常感谢
最佳答案
一些 RSS 提要有一个 guid 元素作为标识符。具有共享 guid 的帖子可能是重复的。一些 RSS 提要只是在其中填充 URL 以表明帖子的唯一性与其 url 相关联。请注意,如果 URL 匹配但 Guid 不匹配,这可能表明帖子不是重复的。如果提要不维护存档,则 url 可能不会更改。这种情况可能非常罕见。
关于c# - 如何检查 RSS 提要中帖子的唯一性(非重复),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3656107/