java - Apache Nutch将抓取的文档写入Rabbitmq

标签 java hadoop plugins rabbitmq nutch

目前,我有elastic indexer插件,可批量编写docs到Elastic。我现在想将这些写到rabbitmq交换中。

我尝试在 flex 插件的write方法内写入交换,而当从本地手动运行时此方法有效,但在hadoop集群中运行时不起作用。

我也看过publish-rabbitmq插件,但这看起来是事件集中的,而不是文档的。

是否有可用的插件来完成我想做的事情或需要编写自己的插件?

最佳答案

您正在寻找和索引类似于https://github.com/apache/nutch/tree/master/src/plugin/indexer-solr的插件,但该插件适用于RabbitMQ,目前不存在。一段时间前,我已经为客户做过类似的事情,但可惜它不是开源的。

基本上,您需要做的是在一个从IndexWriter扩展的类中编写您自己的实现,并仅填充每种方法的实现。

看一看indexer-solrindexer-elastichttps://github.com/apache/nutch/blob/master/src/plugin/indexer-dummy/,它们是最简单的,并且完全作为学习/测试工具提供。

关于java - Apache Nutch将抓取的文档写入Rabbitmq,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41301626/

相关文章:

grails - 使用审计日志插件在 grails 中插入双记录

java - 如何在WebApp中像Diff一样构建SVN/Git?

带 keyListener 的 Java 键输入将不起作用。我不知道我写错了什么

java - 如何去除jSlider的边框

java - 什么是groovy等同于java datetime代码

hadoop - 在Nifi中,FirstInFirstOutPrioritizer和OldestFlowFileFirstPrioritizer有什么区别

hadoop - 在 Hive 中使用自定义 UDF 的 LeaseExpiredException

javascript - 在 main.js 文件上使用 vuejs 插件

hadoop - 使用 Nifi 将数据提取到 HDFS - 无法访问文件

html - IE 在渲染过程中注入(inject) VBScript 标签,导致 HTML 格式错误