hadoop - 配置Nutch写入Apache Kudu

标签 hadoop nosql web-crawler nutch apache-kudu

我正在尝试将Apache Nutch配置为写入Apache Kudu,但是在任何地方都找不到有关如何执行此操作的信息。我知道我可以写Cassandra和HBase,但是Kudu却一无所获。

我正在使用的Hadoop发行版是CDH 5.16.1

如何配置Apache Nucth写入Apache Kudu?

最佳答案

Apache Nutch不立即支持Apache Kudu。由于Nutch具有可插拔的输出/索引系统,因此编写集成应该不会很复杂。

您可以通过实现indexer plugin来编写 IndexWriter interface。我们一直欢迎新的贡献和贡献者。

关于hadoop - 配置Nutch写入Apache Kudu,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54647284/

相关文章:

python - Scrapy 在第一页上不抓取规则跟随下一页

hadoop - 通过oozie运行spark作业时遇到java.lang.NoSuchFieldError:INT_8错误

Hadoop NameNode IP 地址

hadoop - Hadoop-名称节点可以执行任务吗?

android - Firebase 中的数据库结构

mongodb - 文档数据库 : data model migrations

indexing - 在抓取我们的网站时,Google 是否会忽略哈希片段 (#) 之后的内容?

hadoop - HDFS 是否提供异步写入?

mysql - 在 NoSQL 中搜索数据数组的效率如何

python - 如何让 scrapy 跟随由 javascript 生成的 url?