hadoop - 如何使用 Solr 索引目录中的所有 csv 文件?

标签 hadoop indexing solr cloudera solrcloud

给定一个包含数百个制表符分隔的 csv 文件的目录,每个文件的第一行都没有标题。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或 HDFS 上。

索引这些文件的最有效方法是什么?

最佳答案

如果你有很多文件,我认为有几种方法可以提高索引速度:

首先,如果你的数据在本地磁盘上,你可以使用多线程建立索引,但需要注意,每个线程都有自己的索引输出目录。最后将它们合并成一个索引,以提高搜索速度。

其次,如果你的数据在HDFS上,我觉得使用Hadoop MapReduce来建立索引是非常强大的。 另外,Pig或者Hive的一些UDF插件也可以很方便的建立索引,但是 你需要将你的数据转换成 hive 表或制作 pig 模式,这些很简单!

第三,为了更好的理解上面的方法,也许你可以阅读 How to make indexing faster

关于hadoop - 如何使用 Solr 索引目录中的所有 csv 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31736625/

相关文章:

java - 如何全局读取MapReduce应用程序的辅助数据文件?

arrays - 如何在Fortran中访问数组中的最后一项?

MongoDB 复合索引优化键和范围条件更新

Django、Haystack、Solr、MongoDB 架构决策

node.js - 使用 Solr 通过 Mongodb 和 nodejs 进行索引和搜索

java - 多个文件作为 Hadoop Dfs 和 mapreduce 的输入

ubuntu - 错误 : org. apache.hadoop.hbase.MasterNotRunningException:重试 7 次

mysql - 使用字符索引查找数值

java - 如何给特定领域赋予权重?

java - 在 Hadoop 上运行 Spark