c# - 在 C# 中处理非常大的 Dictionary<>

标签 c# .net dictionary search large-data

我正在实现一种搜索 (TF-IDF),其中每个单词的分数都计算为与所有被搜索的文档成正比。我有 100GB 的文档要搜索。

如果我处理 1GB 的文档,我会使用:

Dictionary<string, List<Document>>

..哪里string是单词和List<Document>是所有文档,按顺序排列,包含该词。这不会扩大规模。我正在使用 Dictionary<>因为查找时间是 O(1)(理论上)。

我的预期解决方案是一个 SQLServer 数据库,其中的单词列在一个表中,相关的 List 对象被序列化存储。我担心的是读取数据库并重建到 List<>每次都会非常低效。

我是不是走错方向了?使用大型词典的正常解决方案是什么?

最佳答案

你说得对,使用 List 效率低下,平均而言,List 会实现线性输出 (O(n) ).

就我个人而言,我会使用保证为 O(1)Concurrent Dictionary .在我从事的一个项目中,我正在处理 100MB 文本文件的大文件,我发现 Concurrent Dictionary 可以充分排序和搜索信息,估计每秒完成大约 10,000 条记录。

看看这个整洁的cheat sheet .对于 Big-Oh 算法,它为最好和最坏的情况提供了一些简洁的细节。在处理海量数据集时,牢记抽象分解 的概念很重要。

Abstraction Concentrate on the most important elements - ignore irrelevant details

只存储重要的信息,我非常怀疑您需要在内存中存储一​​个完整的 1GB 文件。

Decomposition Divide and Conquer

确保运行您的应用程序的桌面对您的数据库有良好的延迟。我建议只将您需要的内容存储在内存中,并使用 LINQ 仅检索您需要的确切信息,一旦您拥有与您的任务相关的信息......您就可以进一步过滤它。

关于c# - 在 C# 中处理非常大的 Dictionary<>,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20591520/

相关文章:

c# - asp.net core ControllerBase.User 没有实现 Controller

c# - jsTree 3.0.2 - 如何将参数传递给 aspx webmethod

.net - HttpListener 响应刷新到 'large' 缓冲区很快

c# - 如何使用 C# 和 ImageMagick 将 PDF 转换为图像?

c# - 需要算法来制作简单的程序(句子排列)

python - 如何使用 python 中的 raw_input 输入值并将它们添加到字典中的字典中?

python - 如果不存在,则向字典添加一个键,然后重命名该键

c# - 为什么在无序列表中使用 runat ="server"时我的 css 样式格式不正确?

c# - Docker Asp.net 核心应用程序不会加载我的 JS、imgs

python - 从 Python 字典中的列表中获取值列表