apache - 如何或在何处运行$ ./nutch注入(inject)crawl/crawldb url

我是Nutch的新手，我想抓取该网站。我正在使用Nutch 1.12，却盲目地遵循了here所述的步骤

我下载了apache-nutch-1.12-bin.zip，然后将其解压缩。使用cygwin，我正在尝试抓取我的第一个网站。我只是按照上一页中的步骤进行操作。

我创建了一个名为urls的目录，并在其中创建了seed.txt并将http://nutch.apache.org/包含在其中。

现在，我想执行命令bin / nutch注入(inject)crawl / crawldb url，但是出现以下异常。

Chola @ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin
$ ./nutch注入(inject)检索/ crawldb URL
喷油器:从2017-03-08 14:31:17
注入(inject)器:crawlDb:crawle / crawldb
注入(inject)器:urlDir:URL
注入(inject)器:将注入(inject)的URL转换为爬网数据库条目。
注入(inject)器:org.apache.hadoop.fs.FileAlreadyExistsException:父路径不是目录:crawl
在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:409)
在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:413)
在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs(ChecksumFileSystem.java:584)
在org.apache.nutch.crawl.Injector.inject(Injector.java:350)
在org.apache.nutch.crawl.Injector.run(Injector.java:467)
在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
在org.apache.nutch.crawl.Injector.main(Injector.java:441)

您能否请人帮忙解决此问题

最佳答案

我有同样的问题。

您是否使用“-p”参数创建了url目录？

当我这样做时，问题就解决了。

好运。

关于apache - 如何或在何处运行$ ./nutch注入(inject)crawl/crawldb url，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42667727/

apache - 如何或在何处运行$ ./nutch注入(inject)crawl/crawldb url

上一篇：docker - 无缓存的多阶段Docker构建

下一篇：docker - Kubernetes 中的项目级方法是什么？