java - 如何将 Nutch API 用于 java 应用程序?

标签 java web-crawler nutch

我想在我的 java 应用程序中使用 Nutch API 从网站抓取 pdf 链接进行分析,我如何在我的 java 应用程序中使用 Nutch jar 来做到这一点?我可以举个例子吗?

最佳答案

首先,您需要通过下载并解压缩 Nutch,然后通过给出命令来将 Nutch 作为服务器运行,

bin/nutch startserver

之后,您可以在 Java 中使用 RestTemplate 等 REST 客户端并调用所需的 API。以下是 Nutch 提供的所有 REST API 的文档。

https://wiki.apache.org/nutch/Nutch_1.X_RESTAPI/RunningJobsTutorial

关于java - 如何将 Nutch API 用于 java 应用程序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26729016/

相关文章:

java - 如何为 Android Studio 循环创建按钮删除 View

java - 如何使用四元数控制相机

java - 如何通过 Spark 提交 Spark Streaming 应用程序

elasticsearch - 分布式爬虫和限速/流量控制

java - apache nutch 中的依赖项问题

java - Nutch 网址未获取

java - 为什么我的服务器响应打印不正确?

web-crawler - 爬取需要认证的网站

python - 使用 Beautifulsoup 从某些属性获取文本

parsing - 如何在apache nutch中爬行提取html中特定div的值?