hadoop - 将Parive格式的Hive表数据索引到Cloudera Search/Solr

标签 hadoop solr hive parquet cloudera-cdh

在启用了Kerberos的Cloudera集群中，我想将具有Parquet数据格式的Hive表中的数据索引到Cloudera Search(Solr)。实现此目标的最佳方法是什么？数据可能约为10-20百万。

到目前为止，我发现了两种方法-
1.使用Map减少Parquet的索引编制工具和折线(如果我在这里得到一些帮助，那将非常好)
2.使用自定义配置单元Serde https://github.com/lucidworks/hive-solr，不确定此配置是否适用于更高配置单元版本。

是否有其他机制可以索引此数据。

最佳答案

1.)方法对我来说似乎是好事，并根据Cloudera Search Guide - MapReduce Indexing。

Are there any other mechanisms to index this data.

不知道是否可以使用ORC's file native-indexes。

关于hadoop - 将Parive格式的Hive表数据索引到Cloudera Search/Solr，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46715611/

上一篇：docker - 从 docker 容器中创建一个千斤顶客户端

下一篇：python - 连接到Zap代理Docker镜像 "Max retries exceeded with url: Caused by ProxyError('无法连接到代理

相关文章：

hadoop - 无法在带有加载数据的Hive表中插入数据

xml - Hive XPath UDF 与命名空间一起不起作用

performance - 用于优化 Hadoop 应用程序可伸缩性的工具？

solr - 使用 Lucene/Solr/ElasticSearch 的开箱即用联合搜索

django - 如何在Django Haystack中访问/配置摘要/代码段

ruby-on-rails - 多种类型的太阳黑子搜索与单一类型的太阳黑子搜索

java - Hadoop - 映射器和缩减器的@Override 错误

hadoop - 组织.apache.ignite.IgniteException : For input string: "30s" in ignite hadoop execution

hadoop - Hive 脚本运行时间过长

hadoop - 检查两个表是否相等