hadoop - 将Parive格式的Hive表数据索引到Cloudera Search/Solr

标签 hadoop solr hive parquet cloudera-cdh

在启用了Kerberos的Cloudera集群中,我想将具有Parquet数据格式的Hive表中的数据索引到Cloudera Search(Solr)。实现此目标的最佳方法是什么?数据可能约为10-20百万。

到目前为止,我发现了两种方法-
1.使用Map减少Parquet的索引编制工具和折线(如果我在这里得到一些帮助,那将非常好)
2.使用自定义配置单元Serde https://github.com/lucidworks/hive-solr,不确定此配置是否适用于更高配置单元版本。

是否有其他机制可以索引此数据。

最佳答案

1.)方法对我来说似乎是好事,并根据Cloudera Search Guide - MapReduce Indexing

Are there any other mechanisms to index this data.



不知道是否可以使用ORC's file native-indexes

关于hadoop - 将Parive格式的Hive表数据索引到Cloudera Search/Solr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46715611/

相关文章:

hadoop - 无法在带有加载数据的Hive表中插入数据

xml - Hive XPath UDF 与命名空间一起不起作用

performance - 用于优化 Hadoop 应用程序可伸缩性的工具?

solr - 使用 Lucene/Solr/ElasticSearch 的开箱即用联合搜索

django - 如何在Django Haystack中访问/配置摘要/代码段

ruby-on-rails - 多种类型的太阳黑子搜索与单一类型的太阳黑子搜索

java - Hadoop - 映射器和缩减器的@Override 错误

hadoop - 组织.apache.ignite.IgniteException : For input string: "30s" in ignite hadoop execution

hadoop - Hive 脚本运行时间过长

hadoop - 检查两个表是否相等