apache - bin/nutch 注入(inject)爬网/crawldb 网址不起作用

标签 apache nutch

我刚刚按照教程从 NutchWiki 设置了 Nutch .

下载 Nutch 2.x src 并设置所有配置。 问题出现在我刚开始爬取的时候。 当我运行此代码时:bin/nutch inject crawl/crawldb urls 我收到这样的错误消息:Unrecognized arg urls 我只是按照教程中的所有步骤,创建目录,更改配置文件等。而且我还有一个问题,即 apache-nutch-2.x/runtime/local/中没有 crawdb 目录是自动生成的还是需要手动生成吗? 对此问题的任何帮助将不胜感激。

最佳答案

我遇到了同样的问题。该文档似乎已过时。它适用于 1.x。

对于 2.x,我尝试了以下方法并且对我有用。

bin/nutch inject urls

希望对您有所帮助。

关于apache - bin/nutch 注入(inject)爬网/crawldb 网址不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39360980/

相关文章:

php - UTF-8贯穿始终

java - Apache POI - 无法让折线图值出现在辅助轴中

java - 是否可以使用java代码读取crawldb?

hadoop - 爬取完成后,我们在哪里可以通过nutch的网络爬取找到数据?

apache - 使用 htaccess 将 HTTPS 重定向到单个 PHP 文件

php - Zend 调试器不会加载

ant - 无法使用ant编译Nutch1.4

java - 线程 "main"java.lang.NoClassDefFoundError 在 apach nutch 中的异常

Apache Nutch 2.3.1 检查点不起作用

php - 使用 PHP 以正确的方式路由页面请求