c# - ( Entity Framework )分组依据 - 低性能

标签 c# performance entity-framework sqlite linq-to-sql

我对 Entity Framework 的性能有一个非常特殊的问题。我将框架的版本 7 与 SQLite 提供程序(均来自 nuget)一起使用。数据库有大约 1000 万条记录,但将来会有大约 1 亿条记录。 db的构建非常简单:

public class Sample
{
    public int SampleID { get; set; }
    public long Time { get; set; }
    public short Channel { get; set; } /* values from 0 to 8191, in the presented test 0-15 */
    public byte Events { get; set; } /* 1-255 */
}

public class Channel
{
    public int ChannelID { get; set; }
    public short Ch { get; set; }
    public int Es { get; set; }
}

public class MyContext : DbContext
{
    // This property defines the table
    public DbSet<Sample> Samples { get; set; }
    public DbSet<Channel> Spectrum { get; set; }

    // This method connects the context with the database
    protected override void OnConfiguring(DbContextOptionsBuilder optionsBuilder)
    {
        var connectionStringBuilder = new SqliteConnectionStringBuilder { DataSource = "E://database.db" };
        var connectionString = connectionStringBuilder.ToString();
        var connection = new SqliteConnection(connectionString);

        optionsBuilder.UseSqlite(connection);
    }
}

我尝试按 channel 对事件进行分组,然后将它们汇总为类似频谱的内容。当我使用 linq2sql 时,我的性能非常低。对于 10m 的记录,查询大约需要 15 分钟并获得大约 1 GB 的 RAM,然后抛出 OutOfMemoryException - 我认为 Entity Framework 正在将所有记录作为对象加载到内存中 - 但为什么呢?另一方面,简单的 SQL 需要大约 3 秒,并且不会占用大量 RAM。

        using (var db = new MyContext())
        {
            var res1 = from sample in db.Samples
                       group sample by sample.Channel into g
                       select new { Channel=g.Key, Events = g.Sum(s => s.Events) };
            res1.ToArray();

            var res2 = db.Natas.FromSql("SELECT Channel as ChannelID, Channel as Ch, SUM(Events) as Es FROM Sample GROUP BY Channel");
            var data = res2.ToArray();
        }

有什么建议吗?感谢您的帮助;)

最佳答案

建议?忽略 Entity Framework 。

如:这完全不是 EF 问题,甚至都不好笑。

看EF发出的SQL,然后从那个层级优化。呵呵,你对SQL影响不大;但对于像这样的简单语句,SQL 将是最佳的。

什么不是最佳的 - 并且有一个暗示你从未看过 SQL - 是数据库。指数在那里?代码优先的惊人之处在于它对数据库的复杂性一无所知,您需要首先从“我的数据库是否最优”的角度来看待它。指数。而且 - 可悲的是 - 硬件。如果您达到 1 亿行,您需要在数据库中拥有处理这个问题的能力。

I think that Entity Framework is loading all records as objects into memory - but why?

性能调试的规则 1:不要思考 - 检查。查看生成的 SQL(日志,res1 变量可以向您显示)并查看提交到数据库的内容。

您可能只有那么多数据。您只字不提存在多少个 channel - 这很可能需要一台更大的机器。

检查它。

此外:除非您需要,否则将结果拉入数组并不明智。在这种情况下,数组存在内存问题(重新分配以获得大小),而 LIST 可能更好(使用更多内存但不需要重新分配)。不过,一般来说,您希望避免具体化结果集——即从可枚举的对象开始工作。并非总是如此,但是您的测试可能会简单地显示出那一侧的问题。结果数组可能很大。并且需要一 block 内存。

严肃地说,质疑您对数据库技术的选择。 SqlLite 很好——它很小,很轻。它在内存中。它不适合大量数据,它不是一个完整的数据库服务器。使用 Sql Express 可能会好得多(如果有的话:SQL Express 将使用不在您的进程中但独立的内存进行缓存)。我个人不会将 SqlLite 用于可能使用数亿条记录的东西。

另外:请注意您的 SQL 是不同的。 EF 部分有一个 OrderBy(不需要),而 SQL 则没有。订购可能很昂贵。这让我们回到“获取 Entity Framework 生成的 SQL”。

关于c# - ( Entity Framework )分组依据 - 低性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36234017/

相关文章:

python - 创建包含前 100 个素数的列表时出现无尽错误

mysql - 选择更新与更新,然后选择

.net - 动态选择 Entity Framework 中事件可用数据库的连接字符串

entity-framework - 部署到 IIS 时连接字符串格式错误

c# - 使用 SQL SERVER 2008 处理 XML 和 XML 验证?

c# - 重新排序 PDF 页面顺序

c# - 不在 .NET Core 中处理流

Java HashSet 与数组性能

c# - Entity Framework : Mocking with JustMock

c# - 无法在第二轮将项目添加到集合中