我们正在为我们的一个项目开发审计日志解决方案，非常感谢您的帮助。

我们有媒体实体，其中包含媒体 ID(数字)、操作(字符串，例如 PUBLISH)和发生日期，时间表示操作发生的日期和时间。

要求是删除超过 90 天的日志，但保留对媒体实体的最后操作的日志。

我们正在使用 Mongo 3.2，我们需要帮助来组织我们的集合，因为我们需要支持对包含 200-3 亿个文档的集合的读写。

我们尝试了几种方法，但无法找到一种简单的方法来实现它。

第一种方法

我们尝试用文档格式的平面集合来解决它:

{
  _id: ObjectId("570b3cf65eac4e48e92b4e20"),
  mediaId: 10000,
  action: "PUBLISH",
  occurredOn: ISODate("2016-04-04T12:42:07.000Z")
}

插入很容易，但我们在删除文档时遇到问题。

第二种方法

我们还尝试使用包含操作和日期数组的文档来解决它:

{
  _id: 10000,
  actions: [
    {
      action:"PUBLISH", 
      occurredOn: ISODate("2016-04-04T12:42:07.000Z")
    }, 
    ...
  ]
}

插入也很容易，但同样我们在删除文档时遇到问题。

关于如何为这个场景组织模式有什么建议吗？

最佳答案

实际上，这很简单，虽然不是在单个查询中完成。

不匹配的数据

假设我们有一个集合，它首先存储单个 mediaId 的值，因为这使方法更加清晰。

示例数据

{ "_id" : ObjectId("570ba4f66931b8f21a8bf25f"), "a" : 3, "date" : ISODate("2016-01-01T00:00:00Z") }
{ "_id" : ObjectId("570ba50a6931b8f21a8bf260"), "a" : 4, "date" : ISODate("2015-01-01T00:00:00Z") }
{ "_id" : ObjectId("570baab36931b8f21a8bf261"), "a" : 5, "date" : ISODate("2014-01-01T00:00:00Z") }

请注意，截至撰写本文时，所有日期均已超过 90 天。

程序

首先，我们要识别最后一个条目的 _id，无论如何我们都想保留它:

> db.date.find({},{_id:1}).sort({date:-1}).limit(1)
{ "_id" : ObjectId("570ba4f66931b8f21a8bf25f") }

接下来，我们要删除所有超过 90 天且不是最后一个条目的条目:

var outdated = new Date()
outdated.setDate(outdated.getDate() - 90 )
// We check first
db.date.find({
    _id:{ $not:{ $eq: ObjectId("570ba4f66931b8f21a8bf25f") }},
    date:{ $lt: outdated }
})

这给了我们正确的文件:

{ "_id" : ObjectId("570ba50a6931b8f21a8bf260"), "a" : 4, "date" : ISODate("2015-01-01T00:00:00Z") }
{ "_id" : ObjectId("570baab36931b8f21a8bf261"), "a" : 5, "date" : ISODate("2014-01-01T00:00:00Z") }

所以我们可以运行

> db.date.remove({
    _id:{ $not:{ $eq: ObjectId("570ba4f66931b8f21a8bf25f") }},
    date:{ $lt: outdated }
})
WriteResult({ "nRemoved" : 2 })
> db.date.find()
{ "_id" : ObjectId("570ba4f66931b8f21a8bf25f"), "a" : 3, "date" : ISODate("2016-01-01T00:00:00Z") }

为什么会这样？

简单的逻辑。除非另有说明，否则查询条件与逻辑 AND 连接，意味着必须满足所有条件才能匹配文档。因此，即使最后一个文档早于 90 天，它也会被 $not 短语排除。

多个 mediaIds

现在，我们进入正题。

示例数据

{ "_id" : ObjectId("570baf826931b8f21a8bf262"), "mediaId" : 1000, "date" : ISODate("2016-04-11T14:06:58.668Z") }
{ "_id" : ObjectId("570baf8e6931b8f21a8bf263"), "mediaId" : 1000, "date" : ISODate("2016-01-01T00:00:00Z") }
{ "_id" : ObjectId("570bafa06931b8f21a8bf264"), "mediaId" : 1001, "date" : ISODate("2016-01-01T00:00:00Z") }
{ "_id" : ObjectId("570bafa56931b8f21a8bf265"), "mediaId" : 1001, "date" : ISODate("2015-01-01T00:00:00Z") }
{ "_id" : ObjectId("570bafc96931b8f21a8bf266"), "mediaId" : 1002, "date" : ISODate("2014-01-01T00:00:00Z") }
{ "_id" : ObjectId("570bafcd6931b8f21a8bf267"), "mediaId" : 1002, "date" : ISODate("2013-01-01T00:00:00Z") }

识别最后的文件

我们必须在这里使用聚合:

db.media.aggregate(
    { $sort:{ date:1 }},
    { $group:{
         _id:"$mediaId",
         lastId:{ "$last":"$_id" },
    }},
    { $group:{
      _id:"lastIds",
      ids:{ $push:"$lastId" }
    }},
    { $project:{ _id: 0, ids: 1 } }
)

让我们剖析一下:

{ $sort:{ date:1 }} 我们想要所有的升序排序
{$group:{_id:"$mediaId",lastId:{"$last":"$_id"}}} 我们希望每个 的排序顺序中的最后一个 ObjectId媒体ID
{ $group:{ _id:"lastIds", ids:{ $push:"$lastId"} }} 我们想把所有的 ObjectIds 都放在一个数组中，我们想要一个人工静态 _id 以确保所有 ObjectId 都被推送到所述数组。
{ $project:{ _id: 0, ids: 1 } } 我们只想返回所述数组

结果是

{
    "ids" : [
        ObjectId("570baf826931b8f21a8bf262"),
        ObjectId("570bafa06931b8f21a8bf264"),
        ObjectId("570bafc96931b8f21a8bf266")
     ]
 }

这些是我们明确想要保留的 ObjectId。

你用那些

删除旧文档

使用`$in`

db.media.find({
    _id:{ $not:{ $in:[
        ObjectId("570baf826931b8f21a8bf262"),
        ObjectId("570bafa06931b8f21a8bf264"), 
        ObjectId("570bafc96931b8f21a8bf266")
    ]}},
    date:{$lt: outdated}
})

这里的问题是 $in 对于(公认的相当大的)数组来说并不是很好的表现。这对您来说可能就足够了，因为删除似乎并不是时间紧迫的。但是，您也可以通过以下方式删除文档

使用批量操作

我们稍微调整了最后一个文档的标识，并为每个要保留的文档添加了批量操作:

var bulk = db.media.initializeUnorderedBulkOp()
db.media.aggregate(
    { $sort:{ date: 1 } },
    { $group:{  _id: "$mediaId", lastId:{ "$last": "$_id" }}}
).forEach(
    function(doc){
        bulk.find({
          _id:{ $not:{ $eq: doc.lastId }},
          date:{ $lt: outdated }
        }).remove()
    }
)
bulk.execute()

恕我直言，这种方法尽可能简单，同时保持良好的性能。

关于MongoDB - 如何删除除最后一个以外的过期文档，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36547469/

MongoDB - 如何删除除最后一个以外的过期文档

不匹配的数据

示例数据

程序

为什么会这样？

多个 mediaIds

示例数据

识别最后的文件

删除旧文档

使用`$in`

使用批量操作

上一篇：java - 带有 spring 数据的 mongodb 查询键值

下一篇：python - 更新mongo中的字段类型

MongoDB - 如何删除除最后一个以外的过期文档

不匹配的数据

示例数据

程序

为什么会这样？

多个 mediaIds

示例数据

识别最后的文件

删除旧文档

使用$in

使用批量操作

上一篇：java - 带有 spring 数据的 mongodb 查询键值

下一篇：python - 更新mongo中的字段类型

使用`$in`