Apache Nutch 2.1 不同批处理 ID(空)

我使用 Apache Nutch 2.1 抓取了一些网站。

抓取时，我在很多页面上看到以下消息:
前任。跳过http://www.domainname.com/news/subcategory/111111/index.html ;不同的批处理 ID(空)。

什么原因导致此错误？
我该如何解决这个问题，因为具有不同批处理ID(空)的页面未存储在数据库中。

我抓取的网站是基于drupal的，但我已经尝试过许多其他非drupal网站。

最佳答案

我认为，消息没有问题。 batch_id 未分配给所有 url。因此，如果batch_id为null，则跳过url。当batch_id指定为url时生成url。

关于Apache Nutch 2.1 不同批处理 ID(空)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14828438/

相关文章：

在 openstack vm 中使用 ssl 的 apache