我是这个领域的新手，作为一名学生，我们必须为特定主题创建一个门户网站。作为第一步，我们必须抓取网络(或其中的一部分)，以便我们可以收集该主题的链接，然后再对它们进行索引和排名，最终目的是将它们作为我们门户的数据库。

问题是我无法找到正确的方法。假设我们门户网站的主题是“健康保险”。

您可以描述高级步骤，我将研究如何实现。

最佳答案

简介

您正在尝试构建所谓的聚焦爬虫或主题爬虫，它仅收集您感兴趣的特定领域内的数据。

关于如何开发这样的系统有很多不同的(科学的)方法。它通常涉及统计方法或机器学习来估计某个网页与您的主题的相似度。接下来，种子点的选择对于这种方法至关重要。我建议使用搜索引擎为您感兴趣的领域收集高质量的种子。作为替代方案，您可以使用 Web 目录中预先分类的 URL，例如 curlie.org .

关于该主题的一篇很好的文献综述以及对不同方法的深入解释是 a journal paper by Kumar et al. .

流程简述

简而言之，实现这样一个系统的过程是:

或多或少通用(集中)爬虫架构(在单个服务器/PC上)如下所示:

免责声明:图片是我自己的作品。请通过引用这篇文章来尊重这一点。

遗憾的是，Apache Nutch 默认情况下无法执行此操作。您必须将附加逻辑实现为插件。关于如何做到这一点的灵感可能是 anthelion ，这是 Nutch 的一个专注的爬虫插件。但是，它不再被积极维护。

关于solr - 如何通过 Apache Nutch 对特定主题进行网络抓取？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59016842/