c# - 如何对 LINQ to Objects 查询进行分区?

标签 c# .net indexing clr linq-to-objects

这是一个资源分配问题。我的目标是运行查询以获取任何时隙的最高优先级类次。

数据集非常大。对于此示例,假设 1000 家公司各有 100 个类次(尽管实际数据集更大)。它们都已加载到内存中,我需要对它们运行一个 LINQ to Objects 查询:

    var topShifts =
            (from s in shifts
            where (from s2 in shifts
                   where s2.CompanyId == s.CompanyId && s.TimeSlot == s2.TimeSlot
                   orderby s2.Priority
                   select s2).First().Equals(s)
            select s).ToList();

问题是,如果不进行优化,LINQ to Objects 将比较两个集合中的每个对象,对所有 1,000 x 100 和 1,000 x 100 进行交叉连接,这相当于 100 亿 (10,000,000,000) 次比较。我想要的是只比较每个公司内的对象(就好像公司在 SQL 表中被索引一样)。这应该会产生 1000 组 100 x 100 对象,总共进行 1000 万 (10,000,000) 次比较。随着公司数量的增长,后者将呈线性增长,而不是呈指数增长。

类似 I4o 的技术将允许我做这样的事情,但不幸的是,我没有在执行此查询的环境中使用自定义集合的奢侈。此外,我只希望在任何给定数据集上运行一次此查询,因此持久索引的值是有限的。我希望使用一种扩展方法,按公司对数据进行分组,然后在每个组上运行表达式。

完整示例代码:

public struct Shift
{
    public static long Iterations;

    private int companyId;
    public int CompanyId
    {
        get { Iterations++; return companyId; }
        set { companyId = value; }
    }

    public int Id;
    public int TimeSlot;
    public int Priority;
}

class Program
{
    static void Main(string[] args)
    {
        const int Companies = 1000;
        const int Shifts = 100;
        Console.WriteLine(string.Format("{0} Companies x {1} Shifts", Companies, Shifts));
        var timer = Stopwatch.StartNew();

        Console.WriteLine("Populating data");
        var shifts = new List<Shift>();
        for (int companyId = 0; companyId < Companies; companyId++)
        {
            for (int shiftId = 0; shiftId < Shifts; shiftId++)
            {
                shifts.Add(new Shift() { CompanyId = companyId, Id = shiftId, TimeSlot = shiftId / 3, Priority = shiftId % 5 });
            }
        }
        Console.WriteLine(string.Format("Completed in {0:n}ms", timer.ElapsedMilliseconds));
        timer.Restart();

        Console.WriteLine("Computing Top Shifts");
        var topShifts =
                (from s in shifts
                where (from s2 in shifts
                       where s2.CompanyId == s.CompanyId && s.TimeSlot == s2.TimeSlot
                       orderby s2.Priority
                       select s2).First().Equals(s)
                select s).ToList();
        Console.WriteLine(string.Format("Completed in {0:n}ms", timer.ElapsedMilliseconds));
        timer.Restart();

        Console.WriteLine("\nShifts:");
        foreach (var shift in shifts.Take(20))
        {
            Console.WriteLine(string.Format("C {0} Id {1} T {2} P{3}", shift.CompanyId, shift.Id, shift.TimeSlot, shift.Priority));
        }

        Console.WriteLine("\nTop Shifts:");
        foreach (var shift in topShifts.Take(10))
        {
            Console.WriteLine(string.Format("C {0} Id {1} T {2} P{3}", shift.CompanyId, shift.Id, shift.TimeSlot, shift.Priority));
        }

        Console.WriteLine(string.Format("\nTotal Comparisons: {0:n}", Shift.Iterations/2));

        Console.WriteLine("Any key to continue");
        Console.ReadKey();
    }
}

示例输出:

1000 Companies x 100 Shifts
Populating data
Completed in 10.00ms
Computing Top Shifts
Completed in 520,721.00ms

Shifts:
C 0 Id 0 T 0 P0
C 0 Id 1 T 0 P1
C 0 Id 2 T 0 P2
C 0 Id 3 T 1 P3
C 0 Id 4 T 1 P4
C 0 Id 5 T 1 P0
C 0 Id 6 T 2 P1
C 0 Id 7 T 2 P2
C 0 Id 8 T 2 P3
C 0 Id 9 T 3 P4
C 0 Id 10 T 3 P0
C 0 Id 11 T 3 P1
C 0 Id 12 T 4 P2
C 0 Id 13 T 4 P3
C 0 Id 14 T 4 P4
C 0 Id 15 T 5 P0
C 0 Id 16 T 5 P1
C 0 Id 17 T 5 P2
C 0 Id 18 T 6 P3
C 0 Id 19 T 6 P4

Top Shifts:
C 0 Id 0 T 0 P0
C 0 Id 5 T 1 P0
C 0 Id 6 T 2 P1
C 0 Id 10 T 3 P0
C 0 Id 12 T 4 P2
C 0 Id 15 T 5 P0
C 0 Id 20 T 6 P0
C 0 Id 21 T 7 P1
C 0 Id 25 T 8 P0
C 0 Id 27 T 9 P2

Total Comparisons: 10,000,000,015.00
Any key to continue

问题:

  1. 如何对查询进行分区(同时仍作为单个 LinQ 查询执行)以便将比较次数从 100 亿减少到 1000 万?
  2. 有没有比子查询更高效的解决问题的方法?

最佳答案

怎么样

            var topShifts = from s in shifts.GroupBy(s => s.CompanyId)
                        from a in s.GroupBy(b => b.TimeSlot)
                        select a.OrderBy(p => p.Priority).First();

似乎得到了相同的输出但是进行了 100015 次比较

通过@Geoff 的编辑,他将我的比较减半:-)

关于c# - 如何对 LINQ to Objects 查询进行分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5330580/

相关文章:

c# - 覆盖 StructureMap 3 中的自定义注册约定

c# - 静态集合和asp.net

c# - 编辑器模板和显示模板之间的区别

c# - 单元测试中的逻辑

mysql - 数据库中的 MQTT session - 如何提高性能?

sql - 为什么 Oracle SQL Optimizer 忽略该 View 的索引谓词?

c# - 如何在 F# 中抛出带有有意义消息的异常?

.net - Bonjour sdk for windows 仅在 UI 线程中运行

.net - SHA256 的 key 算法

indexing - Dynamodb 单分区、全局二级索引