java - 如何从我爬行后得到的 "segments"获取单独的html文件?

标签 java linux indexing web-crawler nutch

我是 nuth 的新手。我使用过 nutch 来抓取一些域。现在我需要在单独的文件夹中获取与该域相对应的所有 html 文件。我已经从爬虫程序中获取了作为crawler/linkdb、crawler/crawldb 和crawler/segments 的输出。现在请帮助我继续通过命令行。

最佳答案

执行以下命令:

bin/nutch readseg -dump <segmentDir> <outputDir>

并将segmentDir和outputDir替换为您的段和输出目录(不带“<”)

关于java - 如何从我爬行后得到的 "segments"获取单独的html文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23718707/

相关文章:

java.rmi.ServerException : RemoteException occurred in server thread (ClassNotFoundException) 异常

java - Spring 启动 : @TestConfiguration Not Overriding Bean During Integration Test

linux - ANDROID_HOME 不会设置并且 Cordova 项目不会构建

mysql - max_packet_allowed 自动重置

database - Linux 中的开源集群 SQL 数据库

ruby-on-rails - 使用 Rails Migrations 在不知道名称的情况下删除索引

java - 了解 Android 上的多点触控?

java - 如何在 TableView javafx 中使用 ComboBoxTableCell 或 ChoiceBoxTableCell 选择多个值

javascript - 将表行索引存储为数组索引

xpath - 如何通过xpath获取元素的索引?