MySQL 与 MongoDB 聚合性能对比

标签 mysql mongodb performance aggregation-framework

我目前正在为我的应用程序测试一些数据库。主要功能是数据聚合(类似于这里的这个人:Data aggregation mongodb vs mysql)。

我遇到了同样的问题。我创建了一个示例测试数据。 mysql 端没有连接,它是一个 innodb 表。这是一个 160 万行的数据集,我正在对整个表进行求和和计数,没有任何过滤器,因此我可以比较每个聚合引擎的​​性能。在这两种情况下,所有数据都适合内存。在这两种情况下,都没有写入负载。

使用 MySQL (5.5.34-0ubuntu0.12.04.1) 我得到的结果总是在 2.03 和 2.10 秒左右。 使用 MongoDB(2.4.8,linux 64 位),我得到的结果总是在 4.1 到 4.3 秒之间。

如果我对索引字段进行一些过滤,MySQL 结果时间将下降到 1.18 和 1.20 左右(处理的行数下降到正好是数据集的一半)。 如果我对 MongoDB 上的索引字段进行相同的过滤,结果时间只会下降到 3.7 秒左右(再次处理一半的数据集,我通过对匹配条件的解释确认了这一点)。

我的结论是: 1) 我的文档设计得非常糟糕(真的可以),或者 2)MongoDB聚合框架确实不符合我的需求。

问题是:我可以做什么(在特定的 mongoDB 配置、文档建模等方面)来使 Mongo 的结果更快?这是MongoDB不适应的情况吗?

我的表和文档架构:

|事件_正常|

CREATE TABLE `events_normal` (
  `origem` varchar(35) DEFAULT NULL,
  `destino` varchar(35) DEFAULT NULL,
  `qtd` int(11) DEFAULT NULL,
  KEY `idx_orides` (`origem`,`destino`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |

{
    "_id" : ObjectId("52adc3b444ae460f2b84c272"),
    "data" : {
        "origem" : "GRU",
        "destino" : "CGH",
        "qtdResultados" : 10
    }
}

提到的索引和过滤字段是“origem”和“destino”。

select sql_no_cache origem, destino, sum(qtd), count(1) from events_normal group by origem, destino;
select sql_no_cache origem, destino, sum(qtd), count(1) from events_normal where origem="GRU" group by origem, destino;

db.events.aggregate( {$group: {         _id: {origem: "$data.origem", destino: "$data.destino"},         total: {$sum: "$data.qtdResultados" },         qtd: {$sum: 1}     }  } )
db.events.aggregate( {$match: {"data.origem":"GRU" } } , {$group: {         _id: {origem: "$data.origem", destino: "$data.destino"},         total: {$sum: "$data.qtdResultados" },         qtd: {$sum: 1}     }  } )

谢谢!

最佳答案

聚合并不是 MongoDB 最初设计的目的,因此它并不是最快的功能。

当你真的想使用 MongoDB 时,你可以使用分片,这样每个分片都可以处理它在聚合中的份额(确保以每个组只在一个集群上的方式选择分片键,否则你会达到相反的效果)。然而,这不再是与 MySQL 的公平比较,因为 MongoDB 集群会使用更多的硬件。

关于MySQL 与 MongoDB 聚合性能对比,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20596841/

相关文章:

mysql - 错误代码 : 1292. 截断不正确的 INTEGER 值: ''

Mongodb 动态地理查询

mongodb - 在 mongoDB 映射函数中发出完整文档而不将(键,值)对分配给 varchar

.net - 查找 .NET 多线程瓶颈

performance - 使用 chrome 和 selenium 进行网络节流

mysql - 如果我已经在 MySQL 中声明了多列唯一键,还需要添加多列索引吗?

mysql - 考虑到一个条件仅限于几个值,可以有效地进行过滤

mysql - 尝试使用同一表中的值更新表

mongodb - 有条件地评估要返回的数组元素

c++ - 根据处理速度每 x 秒循环一次