获取时的 Apache Nutch 2.3.1 扩展点

标签 apache hadoop hbase nutch

我已成功配置 Hadoop (2.x)、Hbase 和 Nutch 2.3.1。我还抓取了一些示例页面也用于测试。现在我必须使用开源工具 cld2 对特定语言进行集中爬取。如果抓取的文档不包含该特定语言,则不应保存该文档(在 Hbase 中),也不应将其索引到 Solr。在 Nutch WIKI ,在获取时没有给出扩展点。有没有其他可能的方法来完成这项工作?

最佳答案

目前 Nutch 附带的 fetchers 实现中没有扩展点。如果您考虑一下,您需要获取和解析文档(以提取语言),然后您可以编写自己的 IndexingFilter 来检查文档的语言并决定是否要索引它与否。

这个自己写应该不是很难。另一方面,对于 Nutch 1.x,我们已经有了这个 PR https://github.com/apache/nutch/pull/219它可以很容易地移植到 2.x 上工作,然后您只需要正确的 JEXL 表达式。

我们已经有一个随 Nutch 2.x 一起提供的 language-identifier 插件,您可以看看它是如何实现的,并添加您自己的与 cld2 的集成作为一个不同的插件。如果您想使用 cld2,那么您需要编写一些解析器(连同索引器)来检测内容中的语言。

关于获取时的 Apache Nutch 2.3.1 扩展点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46426020/

相关文章:

java - Windows 上的 Hbase 集成测试

apache - 将域别名添加到现有 linux apache 安装的过程是什么?

php - XAMPP + PostgreSQL = 错误

apache - Elasticsearch CORS HTTPD 和 AngularJs 通信问题

java - Spring security kerberos 请求 header 字段大小超出服务器限制错误

java - 在当前应用程序上使用hadoop

search - 什么是搜索中的 map 和 reduce 阶段

java - 从集群中的所有计算机访问 HDFS 文件

hadoop - 不用java怎么把数据放到Hbase

hadoop - Spark Streaming和Phoenix Kerberos问题