python - 在python中集成多个字典(大数据)

我正在从事大数据挖掘的研究项目。我目前已经编写了代码来将我拥有的数据组织到字典中。然而，数据量如此之大，以至于在形成词典时，我的计算机耗尽了内存。我需要定期将字典写入主内存并以这种方式创建多个字典。然后，我需要比较生成的多个字典，相应地更新键和值，并将整个内容存储在磁盘上的一个大字典中。知道如何在 python 中做到这一点吗？我需要一个 api，它可以快速将字典写入磁盘，然后比较 2 个字典并更新 key 。我实际上可以编写代码来比较 2 个字典，这不是问题，但我需要在不耗尽内存的情况下执行此操作..

我的字典看起来像这样: "orange": ["这是一种水果","它很好吃",...]

最佳答案

同意霍夫曼的观点:选择关系数据库。对于关系引擎来说，数据处理是一项不寻常的任务，但相信，它是易于使用/部署和大型数据集速度之间的良好折衷。

我通常使用 sqlite3，它是 Python 附带的，尽管我更经常通过 apsw 使用它。。像 sqlite3 这样的关系引擎的优点是，您可以指示它通过连接和更新对数据进行大量处理，并且它将以相当合理的方式处理所需的所有数据内存/磁盘交换。您还可以使用内存数据库来保存需要与大数据交互的小数据，并通过“ATTACH”语句将它们链接起来。我已经用这种方式处理了千兆字节。

关于python - 在python中集成多个字典(大数据)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11406085/

python - 在python中集成多个字典(大数据)

上一篇：c# - 选择一个节点时折叠 TreeView 的其他节点

下一篇：bash - 图像文件尺寸太小。我希望它增加