c# - ( Entity Framework )分组依据 - 低性能

我对 Entity Framework 的性能有一个非常特殊的问题。我将框架的版本 7 与 SQLite 提供程序(均来自 nuget)一起使用。数据库有大约 1000 万条记录，但将来会有大约 1 亿条记录。 db的构建非常简单:

public class Sample
{
    public int SampleID { get; set; }
    public long Time { get; set; }
    public short Channel { get; set; } /* values from 0 to 8191, in the presented test 0-15 */
    public byte Events { get; set; } /* 1-255 */
}

public class Channel
{
    public int ChannelID { get; set; }
    public short Ch { get; set; }
    public int Es { get; set; }
}

public class MyContext : DbContext
{
    // This property defines the table
    public DbSet<Sample> Samples { get; set; }
    public DbSet<Channel> Spectrum { get; set; }

    // This method connects the context with the database
    protected override void OnConfiguring(DbContextOptionsBuilder optionsBuilder)
    {
        var connectionStringBuilder = new SqliteConnectionStringBuilder { DataSource = "E://database.db" };
        var connectionString = connectionStringBuilder.ToString();
        var connection = new SqliteConnection(connectionString);

        optionsBuilder.UseSqlite(connection);
    }
}

我尝试按 channel 对事件进行分组，然后将它们汇总为类似频谱的内容。当我使用 linq2sql 时，我的性能非常低。对于 10m 的记录，查询大约需要 15 分钟并获得大约 1 GB 的 RAM，然后抛出 OutOfMemoryException - 我认为 Entity Framework 正在将所有记录作为对象加载到内存中 - 但为什么呢？另一方面，简单的 SQL 需要大约 3 秒，并且不会占用大量 RAM。

        using (var db = new MyContext())
        {
            var res1 = from sample in db.Samples
                       group sample by sample.Channel into g
                       select new { Channel=g.Key, Events = g.Sum(s => s.Events) };
            res1.ToArray();

            var res2 = db.Natas.FromSql("SELECT Channel as ChannelID, Channel as Ch, SUM(Events) as Es FROM Sample GROUP BY Channel");
            var data = res2.ToArray();
        }

有什么建议吗？感谢您的帮助；)

最佳答案

建议？忽略 Entity Framework 。

如:这完全不是 EF 问题，甚至都不好笑。

看EF发出的SQL，然后从那个层级优化。呵呵，你对SQL影响不大；但对于像这样的简单语句，SQL 将是最佳的。

什么不是最佳的 - 并且有一个暗示你从未看过 SQL - 是数据库。指数在那里？代码优先的惊人之处在于它对数据库的复杂性一无所知，您需要首先从“我的数据库是否最优”的角度来看待它。指数。而且 - 可悲的是 - 硬件。如果您达到 1 亿行，您需要在数据库中拥有处理这个问题的能力。

I think that Entity Framework is loading all records as objects into memory - but why?

性能调试的规则 1:不要思考 - 检查。查看生成的 SQL(日志，res1 变量可以向您显示)并查看提交到数据库的内容。

您可能只有那么多数据。您只字不提存在多少个 channel - 这很可能需要一台更大的机器。

检查它。

此外:除非您需要，否则将结果拉入数组并不明智。在这种情况下，数组存在内存问题(重新分配以获得大小)，而 LIST 可能更好(使用更多内存但不需要重新分配)。不过，一般来说，您希望避免具体化结果集——即从可枚举的对象开始工作。并非总是如此，但是您的测试可能会简单地显示出那一侧的问题。结果数组可能很大。并且需要一 block 内存。

严肃地说，质疑您对数据库技术的选择。 SqlLite 很好——它很小，很轻。它在内存中。它不适合大量数据，它不是一个完整的数据库服务器。使用 Sql Express 可能会好得多(如果有的话:SQL Express 将使用不在您的进程中但独立的内存进行缓存)。我个人不会将 SqlLite 用于可能使用数亿条记录的东西。

另外:请注意您的 SQL 是不同的。 EF 部分有一个 OrderBy(不需要)，而 SQL 则没有。订购可能很昂贵。这让我们回到“获取 Entity Framework 生成的 SQL”。

关于c# - ( Entity Framework )分组依据 - 低性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36234017/

c# - ( Entity Framework )分组依据 - 低性能

上一篇：c# - 在具有 Kinect 功能的 C# 中使用计时器

下一篇：c# - 自定义指标遥测不会出现在 Application Insights 的指标浏览器中