tomcat - 如何在tomcat上部署Apache Nutch -1.6？

标签 tomcat nutch

我正在使用 nutch-1.6 通过从终端触发命令进行爬网。我在互联网上搜索过，发现像 0.9、1.0 这样的早期版本的 nutch 带有可以部署在 tomcat 服务器上的 war 文件，但我找不到任何关于在 tomcat 上部署 nutch 1.6 的文档。

我不想每次都从终端触发命令，而是想通过在 tomcat 上部署 nutch 来自动化爬虫系统，这样我就可以通过网页发出命令。

最佳答案

Nutch 2.2.1 具有基于 REST 的 API 来启 Action 业、从数据库(配置的存储)检索数据、停止作业等，

作业管理器 API
数据库读取API
配置API

Nutch2 Tutorial wiki

Running Nutch in eclipse

启动 Nutch 2.2.1

./bin/nutch nutchserver 9000

服务器成功启动后我们可以使用rest请求访问资源

获取默认配置
http://localhost:9000/nutch/confs/default

在服务器上创建新的抓取作业
http://localhost:9000/nutch/jobs
ContentType: application/json
http方法类型: PUT
有效载荷:

  {
    "crawl":"123",
    "type":"crawl",
    "conf":"default",
    "args":
        { "class":"org.apache.nutch.crawl.Crawler", 
          "seed":"http://www.somesite.com", 
           "seedDir":"runtime/local/url/url.txt", "depth":2 }

  }

关于tomcat - 如何在tomcat上部署Apache Nutch -1.6？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17420530/

上一篇：maven - Maven Embedded Tomcat 上的多场 war

下一篇：java - Tomcat 访问日志 - 是否包括失败的请求？

java - 错误: class "javax.persistence.PersistenceUtil"'s signer information does not match

java - 服务器没有启动是因为将 PrimeFaces 从 4.0.x 升级到 5.2？

solr - 即使有要获取的 URL，Nutch 上也出现“无可获取的 URL”错误

Hadoop 1.2.1 上的 Apache Nutch 1.9 在 jar 文件中没有 Crawl 类

java - Nutch - 尝试爬行时出现错误 : JAVA_HOME is not set.

tomcat - 使用 hazelcast 缓存部署 tomcat servlet

Tomcat HTTP 访问日志写入文件有延迟

solr - 如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

eclipse - Nutch 无法获取 UTF-8 字符