apache - 使用 Nutch 重新抓取 URL，仅用于更新的网站

我使用 Nutch 2.1 抓取了一个 URL，然后我想在页面更新后重新抓取页面。我怎样才能做到这一点？我如何知道页面已更新？

最佳答案

你根本做不到。您需要重新抓取页面来控制它是否已更新。因此，根据您的需求，对页面/域进行优先级排序，并在一段时间内重新抓取它们。为此，您需要一个作业调度程序，例如 Quartz 。

您需要编写一个比较页面的函数。但是，Nutch 最初将页面保存为索引文件。换句话说，Nutch 生成新的二进制文件来保存 HTML。我认为不可能比较二进制文件，因为 Nutch 将所有爬网结果合并在一个文件中。如果您想以原始 HTML 格式保存页面进行比较，请参阅我对 this question. 的回答

关于apache - 使用 Nutch 重新抓取 URL，仅用于更新的网站，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14261586/

上一篇：python - VS Code Python 调试器 "timed out waiting for debuggee to spawn"

下一篇：python - 如何在诗歌中使用 nox？

相关文章：

syntax - 如何在Solr中进行IN查询？

Solr:在 bool 字段上使用过滤器查询？

search - Sitecore 7 搜索，无法访问已处置的对象

java - 如何在SOLR中处理突出显示片段中的html标签

apache - ubuntu : can't cd to/var/www despite being in www-data group

java - Apache POI : Why data is not properly inserted?

encryption - 如何加密 Solr DataImportHandler (DIH) 使用的数据库密码？

solr - Apache Solr 索引和过滤查询

php - 与同一 python 脚本的多个实例共享变量的最佳方法

php imagepng() gdb调试信息