我正在尝试在 solr 5.1 中加载和索引 hdfs 数据。我将数据存储在一个配置单元表中,并使用 DIH 导入和索引。我遵循了链接中提供的步骤 Solr DIH .我在 DIH 上看不到任何关于 hive 的 Material ,所以想检查是否有人在这方面工作过。也在寻找关于上述场景的一些建议。
最佳答案
我能够让它工作。 它的工作原理非常有趣。
我们首先获得了 hive2 jar,并通过 java 使其运行以检查连接性。 然后我们意识到要使用的 jar 是:
- hadoop-common-2.7.0-mapr-1703.jar
- hive-common-2.1.1-mapr-1703-r1.jar
- hive-jdbc-2.1.1-mapr-1703-r1-standalone.jar
如果您使用的是 SOLR Cloud,那么这些 jar 将被传输到安装了 SOLR 的 VM,然后在 solrconfig.xml 中引用,如下所示:
导入solrconfig.xml中的部分
然后这是最重要的部分:您的配置单元连接字符串:
连接部分
<数据配置> < dataSource name="ABC"driver="org.apache.hive.jdbc.HiveDriver"url="jdbc:hive2://....connectionString"user="username"password="password"/>
<文档名称="collection_name">
/实体>
/文档>
/数据配置>
通过zookeeper推送配置
server/scripts/cloud-scripts/zkcli.sh -zkhost host1:2181,host2:2181 -cmd upconfig -confname configName -confdir server/solr/configsets/folder/
转到 http://host:8983/solr/#/collection_name/dataimport//dataimport 然后检查调试并首先检查 10 或 20 条记录。
您将看到数据流动。干杯! 如果您想进一步讨论,我可以提供帮助,但我认为这应该可以。它对我有用。
特别感谢 Srini Samudrala 在这方面与我合作。
关于hadoop - 从配置单元导入数据时出现 Solr DIH 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35782310/