我使用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取页面。我怎样才能做到这一点?我如何知道页面已更新?
最佳答案
你根本做不到。您需要重新抓取页面来控制它是否已更新。因此,根据您的需求,对页面/域进行优先级排序,并在一段时间内重新抓取它们。为此,您需要一个作业调度程序,例如 Quartz 。
您需要编写一个比较页面的函数。但是,Nutch 最初将页面保存为索引文件。换句话说,Nutch 生成新的二进制文件来保存 HTML。我认为不可能比较二进制文件,因为 Nutch 将所有爬网结果合并在一个文件中。如果您想以原始 HTML 格式保存页面进行比较,请参阅我对 this question. 的回答
关于apache - 使用 Nutch 重新抓取 URL,仅用于更新的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14261586/