我正在使用 nutch-1.6 通过从终端触发命令进行爬网。我在互联网上搜索过,发现像 0.9、1.0 这样的早期版本的 nutch 带有可以部署在 tomcat 服务器上的 war 文件,但我找不到任何关于在 tomcat 上部署 nutch 1.6 的文档。
我不想每次都从终端触发命令,而是想通过在 tomcat 上部署 nutch 来自动化爬虫系统,这样我就可以通过网页发出命令。
最佳答案
Nutch 2.2.1 具有基于 REST 的 API 来启 Action 业、从数据库(配置的存储)检索数据、停止作业等,
- 作业管理器 API
- 数据库读取API
- 配置API
启动 Nutch 2.2.1
./bin/nutch nutchserver 9000
服务器成功启动后我们可以使用rest请求访问资源
- 获取默认配置
http://localhost:9000/nutch/confs/default
在服务器上创建新的抓取作业
http://localhost:9000/nutch/jobs
ContentType: application/json
http方法类型: PUT
有效载荷:{ "crawl":"123", "type":"crawl", "conf":"default", "args": { "class":"org.apache.nutch.crawl.Crawler", "seed":"http://www.somesite.com", "seedDir":"runtime/local/url/url.txt", "depth":2 } }
关于tomcat - 如何在tomcat上部署Apache Nutch -1.6?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17420530/