java - MongoDB + Solr 性能

标签 java mongodb solr

我一直在四处寻找如何将 MongoDB 与 Solr 结合使用,这里的一些问题有部分答案,但没有什么真正具体的(更像是理论)。在我的应用程序中,我将在 MongoDB 中存储大量文档(可能多达几亿),并且我想对这些文档的某些属性实现全文搜索,所以我想 Solr 是最好的方法这个。

我想知道的是我应该如何配置/执行一切以使其具有良好的性能?现在,这就是我所做的(我知道它不是最佳的):

1- 在 MongoDB 中插入对象时,我将其添加到 Solr

SolrServer server = getServer();
SolrInputDocument document = new SolrInputDocument();
document.addField("id", documentId);
...
server.add(document);
server.commit();

2- 更新对象的属性时,由于 Solr 不能只更新一个字段,所以首先我从 MongoDB 检索对象,然后使用对象和新属性的所有属性更新 Solr 索引,并执行类似的操作

StreamingUpdateSolrServer update = new StreamingUpdateSolrServer(url, 1, 0);
SolrInputDocument document = new SolrInputDocument();
document.addField("id", documentId);
...
update.add(document);
update.commit();

3- 查询时,首先查询 Solr,然后在检索文档列表时 SolrDocumentList 遍历每个文档,然后:

  1. 获取文档的 ID
  2. 从 MongoDB 中获取具有相同 id 的对象,以便能够从那里检索属性

4- 删除时,我还没有完成那部分,也不确定如何在 Java 中完成

那么对于此处描述的每个场景,有人对如何以更有效的方式执行此操作有建议吗?喜欢在 Solr 中有大量文档并一次添加一个文档时不需要 1 小时即可重建索引的过程?我的要求是用户可能希望多次添加一个文档,我希望他们能够在之后立即检索它

最佳答案

您的方法实际上很好。一些流行的框架(如 Compass)正在执行您在较低级别描述的内容,以便自动镜像到通过 ORM 框架执行的索引更改(请参阅 http://www.compass-project.org/overview.html)。

除了您所描述的之外,我还会定期重新索引 MongoDB 中的所有数据,以确保 Solr 和 Mongo 都同步(可能没有您想象的那么长,具体取决于数量文档的数量、字段数、每个字段的标记数和分析器的性能:我经常使用复杂的分析器在不到 15 分钟的时间内创建从 5 到 8 百万个文档(大约 20 个字段,但文本字段很短)的索引,只需确保您的 RAM 缓冲区不会太小,并且在添加所有文档之前不要提交/优化)。

关于性能,提交的成本很高,而优化的成本很高。根据对您最重要的因素,您可以更改 Solrconfig.xml 中的 mergefactor 值(高值可提高写入性能,而低值可提高读取性能,从 10 开始是一个不错的值)。

您似乎害怕索引构建时间。但是,由于 Lucene 索引存储是基于分段的,因此写入吞吐量不应过多地依赖于索引的大小 (http://lucene.apache.org/java/2_3_2/fileformats.html)。但是,预热时间会增加,所以你应该确保

  • 在您的 solrconfig.xml 配置文件中的 firstSearcher 和 newSearcher 参数中有典型的(尤其是为了加载字段缓存的排序)但不太复杂的查询,
  • useColdSearcher 设置为
    • false 以获得良好的搜索性能,或
    • 如果您希望以较慢的搜索速度为代价更快地考虑对索引执行的更改,则为 true。

此外,如果您可以接受数据在写入 MongoDB 后仅几 X 毫秒即可搜索,您可以使用 UpdateHandler 的 commitWithin 功能。这样,Solr 将不得不减少提交频率。

有关 Solr 性能因素的更多信息,请参阅 http://wiki.apache.org/solr/SolrPerformanceFactors

要删除文档,您可以按文档 ID(如 schema.xml 中定义)或查询删除: http://lucene.apache.org/solr/api/org/apache/solr/client/solrj/SolrServer.html

关于java - MongoDB + Solr 性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7193871/

相关文章:

solr - 是否有一种简单的方法可以让 Solr 根据随请求提交的一组凭据引用不同的索引?

java - 更新 recyclerview 中的特定项目

java - SortedMultiset 返回对象集合(不仅仅是对象计数)?

node.js - nodejs : where session stores? 什么是connect-mongo?

solr - SolrCloud中configname设置的目的是什么

php - 如何在 ubuntu 中将 SOLR 从正常的 8983 端口移动到 Apache Tomcat 7 服务器?

java - 找不到参数的方法 applicationId() ?

java - 当我按下我的微调器时,我看到了我的数据,但是当我尝试选择它时,它没有设置数据?

mongodb - mongo-go-driver聚合查询总是返回 "Current": null

javascript - Mongodb 中聚合的更新