c# - 在 C# 中优化列表性能

标签 c# performance linq list hashset

我正在开发一个项目(在 .NET 3.5 中),该项目读取 2 个文件,然后比较它们并找到丢失的对象。

根据这些数据,我需要进一步解析并定位对象位置。我将尝试进一步解释这一点:

我有 2 个列表: 1 list 是服务器上所有文件的非常长的列表,以及它们在服务器或其他服务器上的物理地址,这个文件有超过 10 亿行,并且还在不断增长(我知道有点荒谬)。当前文件大小约为 160MB。 另一个列表是一个报告列表,显示服务器上丢失的文件。与列表 1 相比,此列表很小,通常小于 1MB。

我必须将列表 2 与列表 1 相交,并确定丢失的对象所在的位置。列表中的项目如下所示(不幸的是,它是用空格分隔的,而不是 CSV 文档): filename.extension rev rev# 源服务器:harddriveLocation\|filenameOnServer.extension origin

使用流,我将两个文件读入单独的字符串列表。然后,我采用正则表达式并将列表 2 中的项目解析为包含文件名.扩展名、rev 和 rev# 的第三个列表。所有这一切都非常有效,它的性能让我很生气。

我希望有一种更有效的方法来做我正在做的事情。

foreach (String item in slMissingObjectReport)
{
    if (item.Contains(".ext1") || item.Contains(".ext2") || item.Contains(".ext3"))
    {
        if (!item.Contains("|"))
        {                                     
            slMissingObjects.Add(item + "," + slMissingObjectReport[i + 1] + "," + slMissingObjectReport[i + 2]); //object, rev, version
        }
    }

    i++;
}

int j = 1; //debug only

foreach (String item in slMissingObjects)
{
    IEnumerable<String> found = Enumerable.Empty<String>();
    Stopwatch matchTime = new Stopwatch(); //used for debugging
    matchTime.Start(); //start the stop watch

    foreach (String items in slAllObjects.Where(s => s.Contains(item.Remove(item.IndexOf(',')))))
    {
        slFoundInAllObjects.Add(item);
    }

matchTime.Stop();

tsStatus.Text = "Missing Object Count: " + slMissingObjects.Count + " | " + "All Objects count: " + slAllObjects.Count + " | Time elapsed: " + (taskTime.ElapsedMilliseconds) * 0.001 + "s | Items left: " + (slMissingObjects.Count - j).ToString();

j++;
}

taskTime.Stop();
lstStatus.Items.Add(("Time to complete all tasks: " + (taskTime.ElapsedMilliseconds) * 0.001) + "s");

这可行,但由于目前我的遗失元素列表中有 1300 件遗失元素,因此平均需要 8 到 12 分钟才能完成。花费时间最长的部分是

foreach (String items in slAllObjects.Where(s => s.Contains(item.Remove(item.IndexOf(',')))))
{
    slFoundInAllObjects.Add(item);
}

我只需要指出正确的方向,也许还需要帮助我改进我正在处理的代码。 LINQ 看起来并不是 killer ,将其添加到似乎会破坏性能的列表中。

最佳答案

哈希集专为此类任务而设计,您在其中具有独特的值并且需要比较它们。

列表,不是。它们只是任意集合。

我的第一个停靠点是使用 HashSet<> 和它附带的各种交集方法。

关于c# - 在 C# 中优化列表性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30740604/

相关文章:

javascript - Blazor - JavaScript/Bootstrap 动画和脚本在 blazor 组件中不起作用

c# - FluentAssertions Should().BeEquivalentTo 不比较 EF 动态代理上的运行时派生类型

c# - 使用序列化从 XML 文件读取到 C# 类

sql-server - 相同的查询,不同的执行计划

html - 具有没有样式的类的性能影响?

c# - LINQ 提示子查询返回多于 1 行

linq - Nhibernate Linq In 子句

c# - 数据网格 - "Two-way binding requires Path or XPath."

jquery - 当选择器为文档时,jquery 'on' 函数是否高效

c# - 从数据集中的 X 表中获取最大日期值