tomcat - 如何在tomcat上部署Apache Nutch -1.6?

标签 tomcat nutch

我正在使用 nutch-1.6 通过从终端触发命令进行爬网。我在互联网上搜索过,发现像 0.9、1.0 这样的早期版本的 nutch 带有可以部署在 tomcat 服务器上的 war 文件,但我找不到任何关于在 tomcat 上部署 nutch 1.6 的文档。

我不想每次都从终端触发命令,而是想通过在 tomcat 上部署 nutch 来自动化爬虫系统,这样我就可以通过网页发出命令。

最佳答案

Nutch 2.2.1 具有基于 REST 的 API 来启 Action 业、从数据库(配置的存储)检索数据、停止作业等,

  • 作业管理器 API
  • 数据库读取API
  • 配置API

Nutch2 Tutorial wiki

Running Nutch in eclipse

启动 Nutch 2.2.1

./bin/nutch nutchserver 9000

服务器成功启动后我们可以使用rest请求访问资源

  • 获取默认配置
    http://localhost:9000/nutch/confs/default
  • 在服务器上创建新的抓取作业
    http://localhost:9000/nutch/jobs
    ContentType: application/json
    http方法类型: PUT
    有效载荷:

      {
        "crawl":"123",
        "type":"crawl",
        "conf":"default",
        "args":
            { "class":"org.apache.nutch.crawl.Crawler", 
              "seed":"http://www.somesite.com", 
               "seedDir":"runtime/local/url/url.txt", "depth":2 }
    
      }

关于tomcat - 如何在tomcat上部署Apache Nutch -1.6?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17420530/

相关文章:

tomcat - 无法调用 Tomcat 管理器 : FAIL - Deployed application at context path but context failed to start

java - 错误: class "javax.persistence.PersistenceUtil"'s signer information does not match

java - 服务器没有启动是因为将 PrimeFaces 从 4.0.x 升级到 5.2?

solr - 即使有要获取的 URL,Nutch 上也出现“无可获取的 URL”错误

Hadoop 1.2.1 上的 Apache Nutch 1.9 在 jar 文件中没有 Crawl 类

java - Nutch - 尝试爬行时出现错误 : JAVA_HOME is not set.

tomcat - 使用 hazelcast 缓存部署 tomcat servlet

Tomcat HTTP 访问日志写入文件有延迟

solr - 如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?

eclipse - Nutch 无法获取 UTF-8 字符