我是Nutch的新手,我想抓取该网站。我正在使用Nutch 1.12,却盲目地遵循了here所述的步骤
我下载了apache-nutch-1.12-bin.zip,然后将其解压缩。使用cygwin,我正在尝试抓取我的第一个网站。我只是按照上一页中的步骤进行操作。
我创建了一个名为urls的目录,并在其中创建了seed.txt并将http://nutch.apache.org/包含在其中。
现在,我想执行命令bin / nutch注入(inject)crawl / crawldb url,但是出现以下异常。
Chola @ BNDA000000615 /cygdrive/c/Airbus/apache-nutch-1.12/bin
$ ./nutch注入(inject)检索/ crawldb URL
喷油器:从2017-03-08 14:31:17
注入(inject)器:crawlDb:crawle / crawldb
注入(inject)器:urlDir:URL
注入(inject)器:将注入(inject)的URL转换为爬网数据库条目。
注入(inject)器:org.apache.hadoop.fs.FileAlreadyExistsException:父路径不是目录:crawl
在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:409)
在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:413)
在org.apache.hadoop.fs.ChecksumFileSystem.mkdirs(ChecksumFileSystem.java:584)
在org.apache.nutch.crawl.Injector.inject(Injector.java:350)
在org.apache.nutch.crawl.Injector.run(Injector.java:467)
在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
在org.apache.nutch.crawl.Injector.main(Injector.java:441)
您能否请人帮忙解决此问题
最佳答案
我有同样的问题。
您是否使用“-p”参数创建了url目录?
当我这样做时,问题就解决了。
好运。
关于apache - 如何或在何处运行$ ./nutch注入(inject)crawl/crawldb url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42667727/