java - Nutch 爬行结果作为 JSON

标签 java apache web-crawler nutch

我正在使用 apache-nutch-2.1 进行抓取。是否可以将爬取的结果转为json?我写了一个java程序来使用apache-nutch-2.1进行抓取。我将如何以 JSON 格式检索爬网结果。这可能是一个愚蠢的问题,但当我用谷歌搜索时。没有相关内容。

如何添加获取爬取结果的json?

最佳答案

您正在寻找的功能已经实现:Nutch-932 retrieve crawl results as JSON

在上面的链接中也有如何使用它的示例。

关于java - Nutch 爬行结果作为 JSON,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17227993/

相关文章:

java - 如何让 Java 程序在几秒钟后退出

python - 使用 scrapy 从 200k 域中提取文本

java - Web 挖掘或抓取或爬行?我应该使用什么工具/库?

php - 在域 vhost.conf 中设置 php ini 设置

apache - 301 将单个页面的 HTTPS 重定向到 HTTP

PHP SQL Server 2008 错误定位服务器/实例指定 [xFFFFFFFF]

php - MySQL服务器不见了

java - 从 OpenID 2.0 迁移到 OpenID Connect : cannot use the openid_id to select appengine users

java - 如何将 JSON 对象内容编码为 JSON 字符串?

java - java中如何将二进制转换为十进制?