apache - 如何或在何处运行$ ./nutch注入(inject)crawl/crawldb url

标签 apache hadoop solr nutch

我是Nutch的新手,我想抓取该网站。我正在使用Nutch 1.12,却盲目地遵循了here所述的步骤

我下载了apache-nutch-1.12-bin.zip,然后将其解压缩。使用cygwin,我正在尝试抓取我的第一个网站。我只是按照上一页中的步骤进行操作。

我创建了一个名为urls的目录,并在其中创建了seed.txt并将http://nutch.apache.org/包含在其中。

现在,我想执行命令bin / nutch注入(inject)crawl / crawldb url,但是出现以下异常。

Chola @ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin
$ ./nutch注入(inject)检索/ crawldb URL
喷油器:从2017-03-08 14:31:17
注入(inject)器:crawlDb:crawle / crawldb
注入(inject)器:urlDir:URL
注入(inject)器:将注入(inject)的URL转换为爬网数据库条目。
注入(inject)器:org.apache.hadoop.fs.FileAlreadyExistsException:父路径不是目录:crawl
在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:409)
在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:413)
在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs(ChecksumFileSystem.java:584)
在org.apache.nutch.crawl.Injector.inject(Injector.java:350)
在org.apache.nutch.crawl.Injector.run(Injector.java:467)
在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
在org.apache.nutch.crawl.Injector.main(Injector.java:441)

您能否请人帮忙解决此问题

最佳答案

我有同样的问题。

您是否使用“-p”参数创建了url目录?

当我这样做时,问题就解决了。

好运。

关于apache - 如何或在何处运行$ ./nutch注入(inject)crawl/crawldb url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42667727/

相关文章:

solr - 过滤 solr 方面计数

linux - Solr I/O 随时间增加

asynchronous - SolrJ - 使用 ContentStreamUpdateRequest 异步索引文档

php - 使用 php exec 函数执行 Node 命令时出错

java - 为什么在运行时找不到公共(public)类?

php - UTF-8贯穿始终

mysql - sqoop中如何增量导入导入固定行数?

hadoop - 是否可以将map-reduce的输出直接输出到多个Map文件?

适用于 Python 程序员的 PHP : UTF-8 Issues

amazon-web-services - 几次成功请求后 Hadoop S3 驱动程序出现 403 错误