.net - RavenDB - MapReduce 复杂聚合

标签 .net linq mapreduce ravendb reduce

我有这样一个文档:

 order : 1
     event : { timestamp: 1/1/2012, employeeName: "mick" },
     event : { timestamp: 1/1/2012, employeeName: "mick" },
     event : { timestamp: 1/2/2012, employeeName: "rick" },
     event : { timestamp: 1/3/2012, employeeName: "mick" }

  order : 2
     event : { timestamp: 1/2/2012, employeeName: "mick" },
     event : { timestamp: 1/2/2012, employeeName: "rick" }

我想运行 map-reduce 查询以返回按日期分组的结果列表以及每个订单的员工事件计数。

在这种情况下,Mick 在 1/1 的一个订单上有 2 个事件。 11 月 2 日和 3 日,所有其他日子的员工对每个订单都有一个事件。所以我需要一个 MAP 函数,其结果如下所示:

{ orderId: 1, date: 1/1/2012, employee: "mick", orderEventsCount: 2 },
{ orderId: 1, date: 1/2/2012, employee: "rick", orderEventsCount: 1 },
{ orderId: 2, date: 1/2/2012, employee: "mick", orderEventsCount: 1 },
{ orderId: 2, date: 1/2/2012, employee: "rick", orderEventsCount: 1 },
{ orderId: 1, date: 1/3/2012, employee: "mick", orderEventsCount: 1 }

然后我需要一个 REDUCE 函数,它将获取这些结果并仅按日期分组,并返回每天在一个订单上处理多个事件的员工数量:

{ date: 1/1/2012, multipleEventsPerOrdercount: 1 },
{ date: 1/2/2012, multipleEventsPerOrdercount: 0 },
{ date: 1/3/2012, multipleEventsPerOrdercount: 0 }

由于 Mick 是唯一一个在一个订单的一个日期有多个事件的员工,因此结果只返回一个员工在一个订单的一个日期有多个事件的计数。

在 .NET 中使用 LINQ 编写此 map-reduce Raven 查询的最佳方法是什么?

谢谢

最佳答案

假设您的类如下所示:

public class Order
{
  public string Id  { get; set; }
  public List<Event> Events { get; set; }
}

public class Event
{
  public DateTime Timestamp { get; set; }
  public string EmployeeName { get; set; }
}

那么您要的索引将如下所示:

public class Orders_EventCountsByDate : 
    AbstractIndexCreationTask<Order, Orders_EventCountsByDate.Result>
{
  public class Result
  {
    public DateTime Date { get; set; }
    public double Count { get; set; }
  }

  public Orders_EventCountsByDate()
  {
    Map = orders => from order in orders
                    from evt in order.Events
                    let subtotal = order.Events.Count(x => x.EmployeeName == evt.EmployeeName && x.Timestamp == evt.Timestamp)
                    select new
                    {
                      evt.Timestamp.Date,
                      Count = subtotal > 1 ? (1.0 / subtotal) : 0
                    };

    Reduce = results => from result in results
                        group result by result.Date
                        into g
                        select new
                        {
                          Date = g.Key,
                          Count = g.Sum(x => x.Count)
                        };
  }
}

你会像这样使用它:

var counts = session.Query<Orders_EventCountsByDate.Result,
                           Orders_EventCountsByDate>();

这里的技巧是您在 map 中确定您希望每个事件对计数的贡献度。如果只有一个事件,你贡献零。当有多个事件时,每个事件只占总数的一小部分。这些分数稍后会在 reduce 中求和,使您返回接近整数。双 float 学应该让你回到整数,但为了安全起见,你仍然可能希望在客户端代码中四舍五入到最接近的整数。

这还假设所有事件都在同一时区并且您不关心夏令时的变化,或者时间是 UTC 时间。如果两者都不是,那么您应该使用 DateTimeOffset,并且在决定每个员工的“一天”概念时需要考虑更多。

关于.net - RavenDB - MapReduce 复杂聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13305443/

相关文章:

.NET:为什么不检查Enum的范围/值?

c# - 重置网络连接

.net - 在WinForms/.NET中更改光标热点

Linq to SQL - 多对多谓词

hadoop - 我想用 PIG 中的 AVG 替换 NULL 值

.net - 循环内的变量声明

c# - 从对象列表创建制表符分隔的字符串

c# - Linq to Sql 多对多关系

java - WordCount MapReduce 给出了意外的结果

hadoop - 使用各种语言在 Hadoop 中运行作业的优缺点是什么?