solr - 如何通过 Apache Nutch 对特定主题进行网络抓取?

标签 solr web-crawler nutch

我是这个领域的新手,作为一名学生,我们必须为特定主题创建一个门户网站。作为第一步,我们必须抓取网络(或其中的一部分),以便我们可以收集该主题的链接,然后再对它们进行索引和排名,最终目的是将它们作为我们门户的数据库。

问题是我无法找到正确的方法。假设我们门户网站的主题是“健康保险”。

  1. 作为方法论和我需要的工具,我必须遵循哪些步骤?
  2. 有没有办法指导 nutch 特定内容?
  3. 我是否应该在 seeds.txt 中填充各种链接,解析大量链接,然后过滤内容?

您可以描述高级步骤,我将研究如何实现。

最佳答案

简介

您正在尝试构建所谓的聚焦爬虫主题爬虫,它仅收集您感兴趣的特定领域内的数据。

关于如何开发这样的系统有很多不同的(科学的)方法。它通常涉及统计方法或机器学习来估计某个网页与您的主题的相似度。接下来,种子点的选择对于这种方法至关重要。我建议使用搜索引擎为您感兴趣的领域收集高质量的种子。作为替代方案,您可以使用 Web 目录中预先分类的 URL,例如 curlie.org .

关于该主题的一篇很好的文献综述以及对不同方法的深入解释是 a journal paper by Kumar et al. .

流程简述

简而言之,实现这样一个系统的过程是:

  1. 构建相关性模型,该模型可以确定给定网页是否属于您感兴趣的领域/主题(例如文本分类器)。
  2. 评估您的特定领域相关性模型。如果您不满意,请返回(1)
  3. 将高质量种子点输入系统并开始抓取

架构

或多或少通用(集中)爬虫架构(在单个服务器/PC上)如下所示:

basic crawler architecture

免责声明:图片是我自己的作品。请通过引用这篇文章来尊重这一点。

Apache ·纳奇

遗憾的是,Apache Nutch 默认情况下无法执行此操作。您必须将附加逻辑实现为插件。关于如何做到这一点的灵感可能是 anthelion ,这是 Nutch 的一个专注的爬虫插件。但是,它不再被积极维护。

关于solr - 如何通过 Apache Nutch 对特定主题进行网络抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59016842/

相关文章:

python - scrapy - python 问题

javascript - 通过 JavaScript 重定向进行爬网

javascript - 使用 Ruby 爬取 Javascript 繁重的网站

java基准测试: More time for lesser input

java - Nutch-Hadoop :- how can we crawl only the updates in the url going for recrawl?

solr - solr 多值字段的评分

java - 1 个写入服务器 1 个搜索服务器实时工作

java - Solr 错误返回类型错误

java - solr中的NamedList问题

solr - Nutch solrindex命令未索引Solr中的所有URL