apache - 使用 Nutch 重新抓取 URL,仅用于更新的网站

标签 apache solr lucene nutch web-crawler

我使用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取页面。我怎样才能做到这一点?我如何知道页面已更新?

最佳答案

你根本做不到。您需要重新抓取页面来控制它是否已更新。因此,根据您的需求,对页面/域进行优先级排序,并在一段时间内重新抓取它们。为此,您需要一个作业调度程序,例如 Quartz

您需要编写一个比较页面的函数。但是,Nutch 最初将页面保存为索引文件。换句话说,Nutch 生成新的二进制文件来保存 HTML。我认为不可能比较二进制文件,因为 Nutch 将所有爬网结果合并在一个文件中。如果您想以原始 HTML 格式保存页面进行比较,请参阅我对 this question. 的回答

关于apache - 使用 Nutch 重新抓取 URL,仅用于更新的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14261586/

相关文章:

syntax - 如何在Solr中进行IN查询?

Solr:在 bool 字段上使用过滤器查询?

search - Sitecore 7 搜索,无法访问已处置的对象

java - 如何在SOLR中处理突出显示片段中的html标签

apache - ubuntu : can't cd to/var/www despite being in www-data group

java - Apache POI : Why data is not properly inserted?

encryption - 如何加密 Solr DataImportHandler (DIH) 使用的数据库密码?

solr - Apache Solr 索引和过滤查询

php - 与同一 python 脚本的多个实例共享变量的最佳方法

php imagepng() gdb调试信息