MongoDB MapReduce——是否有聚合替代方案？

我有一个集合，其中包含使用类似这样的架构的文档(一些成员已编辑):

{
    "_id" : ObjectId("539f41a95d1887b57ab78bea"),
    "answers" : {
        "ratings" : {
            "positivity" : [ 
                2, 
                3, 
                5
            ],
            "activity" : [ 
                4, 
                4, 
                3
            ],
    },
    "media" : [ 
        ObjectId("537ea185df872bb71e4df270"), 
        ObjectId("537ea185df872bb71e4df275"), 
        ObjectId("537ea185df872bb71e4df272")
    ]
}

在此架构中，第一、第二和第三个positivity 评级分别对应于media 数组中的第一个、第二个和第三个条目。 activity 评级也是如此。我需要针对集合中所有文档的关联 media 对象计算 positivity 和 activity 评级的统计数据。现在，我正在使用 MapReduce 来做这件事。不过，我想通过聚合管道来实现这一点。

理想情况下，我想$unwind media、answers.ratings.positivity 和answers.ratings。 activity 数组，因此我最终得到，例如，基于前面示例的以下三个文档:

[
    {
        "_id" : ObjectId("539f41a95d1887b57ab78bea"),
        "answers" : {
            "ratings" : {
                "positivity" : 2,
                "activity" : 4
            }
        },
        "media" : ObjectId("537ea185df872bb71e4df270")
    },
    {
        "_id" : ObjectId("539f41a95d1887b57ab78bea"),
        "answers" : {
            "ratings" : {
                "positivity" : 3
                "activity" : 4
            }
        },
        "media" : ObjectId("537ea185df872bb71e4df275")
    },
    {
        "_id" : ObjectId("539f41a95d1887b57ab78bea"),
        "answers" : {
            "ratings" : {
                "positivity" : 5
                "activity" : 3
            }
        },
        "media" : ObjectId("537ea185df872bb71e4df272")
    }
]

有什么办法可以做到这一点吗？

最佳答案

当前的聚合框架不允许您这样做。能够展开已知大小相同的多个数组并为每个数组的第 i 个值创建一个文档将是一个很好的功能。

如果你想使用聚合框架，你需要稍微改变你的模式。例如采用以下文档模式:

{
    "_id" : ObjectId("539f41a95d1887b57ab78bea"),
    "answers" : {
        "ratings" : {
            "positivity" : [ 
                {k:1, v:2}, 
                {k:2, v:3}, 
                {k:3, v:5}
            ],
            "activity" : [ 
                {k:1, v:4}, 
                {k:2, v:4}, 
                {k:3, v:3}
            ],
    }},
    "media" : [ 
        {k:1, v:ObjectId("537ea185df872bb71e4df270")}, 
        {k:2, v:ObjectId("537ea185df872bb71e4df275")}, 
        {k:3, v:ObjectId("537ea185df872bb71e4df272")}
    ]
}

这样做实际上是将索引添加到数组中的对象。在此之后，只需展开所有数组并匹配键即可。

db.test.aggregate([{$unwind:"$media"},
{$unwind:"$answers.ratings.positivity"},
{$unwind:"$answers.ratings.activity"},
{$project:{"media":1, "answers.ratings.positivity":1,"answers.ratings.activity":1,
    include:{$and:[
                  {$eq:["$media.k", "$answers.ratings.positivity.k"]},
                  {$eq:["$media.k", "$answers.ratings.activity.k"]}
            ]}}
},
{$match:{include:true}}])

输出是:

[ 
        {
            "_id" : ObjectId("539f41a95d1887b57ab78bea"),
            "answers" : {
                "ratings" : {
                    "positivity" : {
                        "k" : 1,
                        "v" : 2
                    },
                    "activity" : {
                        "k" : 1,
                        "v" : 4
                    }
                }
            },
            "media" : {
                "k" : 1,
                "v" : ObjectId("537ea185df872bb71e4df270")
            },
            "include" : true
        }, 
        {
            "_id" : ObjectId("539f41a95d1887b57ab78bea"),
            "answers" : {
                "ratings" : {
                    "positivity" : {
                        "k" : 2,
                        "v" : 3
                    },
                    "activity" : {
                        "k" : 2,
                        "v" : 4
                    }
                }
            },
            "media" : {
                "k" : 2,
                "v" : ObjectId("537ea185df872bb71e4df275")
            },
            "include" : true
        }, 
        {
            "_id" : ObjectId("539f41a95d1887b57ab78bea"),
            "answers" : {
                "ratings" : {
                    "positivity" : {
                        "k" : 3,
                        "v" : 5
                    },
                    "activity" : {
                        "k" : 3,
                        "v" : 3
                    }
                }
            },
            "media" : {
                "k" : 3,
                "v" : ObjectId("537ea185df872bb71e4df272")
            },
            "include" : true
        }
    ]

这样做会产生大量额外的文档开销，并且可能比您当前的 MapReduce 实现速度慢。您需要运行测试来检查这一点。为此所需的计算将根据这三个数组的大小以立方方式增长。这一点也应该牢记。

关于MongoDB MapReduce——是否有聚合替代方案？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24312932/

MongoDB MapReduce——是否有聚合替代方案？

上一篇：MongoDB 索引，是否可以同时创建普通索引和复合索引？

下一篇：javascript - 聚合或 Map Reduce 以创建规范化的 'Unique Paying Users Per Vendor'