在启用了Kerberos的Cloudera集群中,我想将具有Parquet数据格式的Hive表中的数据索引到Cloudera Search(Solr)。实现此目标的最佳方法是什么?数据可能约为10-20百万。
到目前为止,我发现了两种方法-
1.使用Map减少Parquet的索引编制工具和折线(如果我在这里得到一些帮助,那将非常好)
2.使用自定义配置单元Serde https://github.com/lucidworks/hive-solr,不确定此配置是否适用于更高配置单元版本。
是否有其他机制可以索引此数据。
最佳答案
1.)方法对我来说似乎是好事,并根据Cloudera Search Guide - MapReduce Indexing。
Are there any other mechanisms to index this data.
不知道是否可以使用ORC's file native-indexes。
关于hadoop - 将Parive格式的Hive表数据索引到Cloudera Search/Solr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46715611/