具有自定义文件保存能力的Java爬虫

标签 java web-crawler

我正在寻找一个用 Java 编写的开源网络爬虫,除了常见的网络爬虫功能(例如深度/多线程/等)之外,还能够自定义处理每种文件类型。

更准确地说,当下载(或将要下载)文件时,我想处理文件的保存操作。 HTML 文件应保存在不同的存储库中,图像应保存在另一个位置,其他文件应保存在其他位置。此外,存储库可能不仅仅是一个简单的文件系统。

我听说过很多关于 Apache Nutch 的事。它有能力做到这一点吗?我希望尽可能简单、快速地实现这一目标。

最佳答案

基于您希望对爬网程序如何工作进行大量控制的假设,我建议 crawler4j 。有很多examples ,这样您就可以快速了解事情的运作方式。

您可以根据资源的内容类型轻松处理资源(看看 Page.java 类 - 它是包含有关所获取资源的信息的对象类)。

关于存储库没有限制。您可以使用任何您想要的东西。

关于具有自定义文件保存能力的Java爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14005616/

相关文章:

php - 阅读前 100 行

language-agnostic - 爬取和抓取 iTunes App Store

java - Spring 启动: The Tomcat connector configured to listen on port 8080 failed to start

java - 如何在 Micronaut 中使用@Parameter?

python - Scrapy 忽略 noindex

python - Scrapy Crawler 不跟踪链接

javascript - 索引 angularjs 应用程序 - Googlebot 模拟与站点 :domain

java - 使用 Single<Boolean> 进行过滤

java - java继承的概念..help

java - 无法添加 ActionListener 来添加组件