Apache Nutch 2.1 不同批处理 ID(空)

标签 apache nutch web-crawler

我使用 Apache Nutch 2.1 抓取了一些网站。

抓取时,我在很多页面上看到以下消息:
前任。跳过http://www.domainname.com/news/subcategory/111111/index.html ;不同的批处理 ID(空)。

什么原因导致此错误?
我该如何解决这个问题,因为具有不同批处理ID(空)的页面未存储在数据库中。

我抓取的网站是基于drupal的,但我已经尝试过许多其他非drupal网站。

最佳答案

我认为,消息没有问题。 batch_id 未分配给所有 url。因此,如果batch_id为null,则跳过url。当batch_id指定为url时生成url。

关于Apache Nutch 2.1 不同批处理 ID(空),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14828438/

相关文章:

在 openstack vm 中使用 ssl 的 apache

hadoop - java.lang.Exception : java. lang.IncompatibleClassChangeError : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的

hadoop - 可以找到或加载主类 org.apache.nutch.crawl.InjectorJob

perl - 递归网络爬虫 perl

apache - 使用 apache nutch 抓取视频

python - 从网上提取表格

php - "Symbolic"链接以解决对 public_html 之外的文件夹的请求?

python - 学习 Python/Apache/Linux

angularjs - 单页应用程序的 vhosts conf

web-crawler - 如何扩展 Nutch 以进行文章抓取