我是 nuth 的新手。我使用过 nutch 来抓取一些域。现在我需要在单独的文件夹中获取与该域相对应的所有 html 文件。我已经从爬虫程序中获取了作为crawler/linkdb、crawler/crawldb 和crawler/segments 的输出。现在请帮助我继续通过命令行。
最佳答案
执行以下命令:
bin/nutch readseg -dump <segmentDir> <outputDir>
并将segmentDir和outputDir替换为您的段和输出目录(不带“<”)
关于java - 如何从我爬行后得到的 "segments"获取单独的html文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23718707/