hadoop - 从配置单元导入数据时出现 Solr DIH 错误

标签 hadoop solr hive dih

我正在尝试在 solr 5.1 中加载和索引 hdfs 数据。我将数据存储在一个配置单元表中,并使用 DIH 导入和索引。我遵循了链接中提供的步骤 Solr DIH .我在 DIH 上看不到任何关于 hive 的 Material ,所以想检查是否有人在这方面工作过。也在寻找关于上述场景的一些建议。

最佳答案

我能够让它工作。 它的工作原理非常有趣。

我们首先获得了 hive2 jar,并通过 java 使其运行以检查连接性。 然后我们意识到要使用的 jar 是:

  1. hadoop-common-2.7.0-mapr-1703.jar
  2. hive-common-2.1.1-mapr-1703-r1.jar
  3. hive-jdbc-2.1.1-mapr-1703-r1-standalone.jar

如果您使用的是 SOLR Cloud,那么这些 jar 将被传输到安装了 SOLR 的 VM,然后在 solrconfig.xml 中引用,如下所示:

导入solrconfig.xml中的部分

然后这是最重要的部分:您的配置单元连接字符串:

连接部分

<数据配置> < dataSource name="ABC"driver="org.apache.hive.jdbc.HiveDriver"url="jdbc:hive2://....connectionString"user="username"password="password"/>

<文档名称="collection_name">

/实体>

/文档>

/数据配置>

通过zookeeper推送配置

server/scripts/cloud-scripts/zkcli.sh -zkhost host1:2181,host2:2181 -cmd upconfig -confname configName -confdir server/solr/configsets/folder/

转到 http://host:8983/solr/#/collection_name/dataimport//dataimport 然后检查调试并首先检查 10 或 20 条记录。

您将看到数据流动。干杯! 如果您想进一步讨论,我可以提供帮助,但我认为这应该可以。它对我有用。

特别感谢 Srini Samudrala 在这方面与我合作。

关于hadoop - 从配置单元导入数据时出现 Solr DIH 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35782310/

相关文章:

ruby-on-rails-3 - EngineYard 上的太阳黑子锁定问题

mysql - sqoop增量导入更新的行和新创建的记录

java - HDFS 授予对文件及其所有目录的权限

hadoop map reduce -archives 不解压文件

java - Hadoop MapReduce:将数据从映射器复制到reducer

hive - Spark-submit YARN;客户端模式,SQLContext.sql返回数据库未找到

hadoop - Hive 变量替换为函数

sql - Hive 相对于同一表中的其他数组列对数组列进行排序

solr - solr 搜索结果中的网址和电子邮件

apache - 生产环境中的 Solr(在 Tomcat 中)