nutch - 我在哪里可以找到有关 Nutch 状态代码的文档?

标签 nutch

<分区>

Nutch 有几个状态码,用于对抓取的文档进行分类。

Nutch 使用的代码示例是:

db_unfetched
db_fetched
db_gone
db_redir_perm
db_redir_temp
db_notmodified

我在哪里可以找到代码含义的明确解释?

阅读 Stackoverflow 上的论坛帖子和回答者可以很好地理解代码。此页面还提供了一些很好的输入:http://wiki.apache.org/nutch/CrawlDatumStates但我正在寻找一个描述每个状态代码含义的页面。

最佳答案

没有官方文档,但我可以从 CrawlDatum 中提取这个文档类:

  /** Page was not fetched yet. */
  public static final byte STATUS_DB_UNFETCHED      = 0x01;

  /** Page was successfully fetched. */
  public static final byte STATUS_DB_FETCHED        = 0x02;

  /** Page no longer exists. */
  public static final byte STATUS_DB_GONE           = 0x03;

  /** Page temporarily redirects to other page. */
  public static final byte STATUS_DB_REDIR_TEMP     = 0x04;

  /** Page permanently redirects to other page. */
  public static final byte STATUS_DB_REDIR_PERM     = 0x05;

  /** Page was successfully fetched and found not modified. */
  public static final byte STATUS_DB_NOTMODIFIED    = 0x06;

关于nutch - 我在哪里可以找到有关 Nutch 状态代码的文档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16853155/

相关文章:

solr - 使用 Nutch solrindex 索引到多个内核?

hadoop - 爬取完成后,我们在哪里可以通过nutch的网络爬取找到数据?

search - Nutch 搜索始终返回 0 个结果

lucene - Nutch - 如何通过小块爬行?

java - 如何通过 Java 应用程序使用 Apache Nutch?

hadoop - 为什么我得到 "security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000"?

hadoop - 使用S3作为坚果存储系统

solr - Nutch solrindex命令未索引Solr中的所有URL

elasticsearch - Storm 搜寻器搜寻和索引

hadoop - Nutch 如何与 Hadoop 集群协同工作?