java - 对于有关构建搜索引擎的学术项目，什么是基于 Java 的优秀爬虫？

好的，所以我最近两天一直在寻找适合我需求的爬虫。我想建立一个搜索引擎，我想自己做索引。这将是一个学术项目的一部分。虽然我没有抓取整个网络的处理能力，但我想使用一个实际上有能力做到这一点的抓取工具。所以我正在寻找的是一个爬虫:

它不需要(必须)做的是:

我发现了一些非常接近我的需求的库/项目，但据我所知它们并不支持我需要的一切:

我还研究了更完整、更复杂的“爬虫”，例如 Heritrix 和 Nutch。虽然我不太擅长处理更复杂的东西，但如果我确定它能够完成我需要它做的事情，我绝对愿意使用它:爬网并给我所有页面，以便我可以阅读他们。

长话短说:我正在寻找一个可以非常快速地遍历网络上所有页面并让我有机会使用它们做一些事情的爬虫。

最佳答案

据我所知，Apache Nutch 可以满足您的大部分要求。 Nutch 也有一个插件架构，如果你需要的话，这有助于编写你自己的插件架构。您可以浏览 wiki [0] 并在邮件列表中提问，如果您有任何问题

关于java - 对于有关构建搜索引擎的学术项目，什么是基于 Java 的优秀爬虫？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14603330/