我使用 Apache Nutch 2.1 抓取了一些网站。
抓取时,我在很多页面上看到以下消息:
前任。跳过http://www.domainname.com/news/subcategory/111111/index.html ;不同的批处理 ID(空)。
什么原因导致此错误?
我该如何解决这个问题,因为具有不同批处理ID(空)的页面未存储在数据库中。
我抓取的网站是基于drupal的,但我已经尝试过许多其他非drupal网站。
最佳答案
我认为,消息没有问题。 batch_id 未分配给所有 url。因此,如果batch_id为null,则跳过url。当batch_id指定为url时生成url。
关于Apache Nutch 2.1 不同批处理 ID(空),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14828438/