lucene - 在 Hadoop 上运行 Lucene/Solr 的最佳方式是什么?

标签 lucene solr hadoop mapreduce elastic-map-reduce

我们在具有 1TB EBS 卷的 Amazon Web Services EC2 实例上运行 Solr 来存储索引,以便我们可以轻松启动具有相同(只读)索引的其他服务器。但是,我们的索引很快就会超过 1TB,我真的不想处理 strip 化多个 EBS 卷来保存索引。此外,重新生成索引非常慢。我想将索引生成——可能还有托管——转移到 Hadoop,最好转移到 Amazon 的 Elastic MapReduce,尽管如果需要我可以设置单独的 Hadoop 服务器。我们使用 RightScale,因此我们可以使用他们的 ServerTemplates 库。

在 Hadoop 上开始使用 Lucene/Solr 的最佳起点是什么?

最佳答案

看看 ElasticSearch。您可以从 Hadoop 索引到 ElasticSearch 以进行批量加载。 Infochimps 开源了一个名为 Wonderdog 的 ElasticSearch 批量索引器,您可以查看它以获取概念验证。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

它是云友好的(请参阅 cloud-aws 插件以了解发现),并且可以通过添加节点来保存索引来向上/向下扩展。

关于lucene - 在 Hadoop 上运行 Lucene/Solr 的最佳方式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6201798/

相关文章:

sql - 最后位置的字符只能被替换 - Hive

algorithm - 为非英语字符启用 soundex/metaphone

sqlite - 今天最快的全文搜索?

hadoop - 如何在Scalding中记录文件?

mysql - 仅 Solr 与 Solr/MySQL 解决方案

java - 搜索多个 solr 核心的最佳方式

hadoop - 如何在不重启集群的情况下更新 hadoop mapred-site.xml 的配置参数

solr - 正向索引与反向索引为什么?

java - 如何使用Solr的DirectUpdateHandler2正确回滚提交?

java - 安装Tomcat + Solr问题