背景
我正在处理的问题如下:
在我为研究设计的实验环境中,我生成了大量的大型(长度为 4M)数组,这些数组有些稀疏,因此可以存储为
scipy.sparse.lil_matrix
实例,或简单地作为scipy.array
实例(空间增益/损失不是这里的问题)。这些数组中的每一个都必须与一个字符串(即一个词)配对才能使数据有意义,因为它们是表示该字符串含义的语义向量。 我需要保留这个配对。
列表中每个单词的向量都是一个一个构建的,并在移动到下一个单词之前存储到磁盘。
它们必须以一种可以随后使用类似字典的语法检索的方式存储到磁盘。例如,如果所有单词都存储在类似 DB 的文件中,我需要能够打开该文件并执行类似
vector = wordDB[word]
的操作。
当前方法
我现在在做什么:
使用
的书架shelve
打开一个名为wordDB
每次构建单词的向量(当前使用
scipy.sparse
中的lil_matrix
),将向量存储在 shelf 中:wordDB [单词] = 向量
当我需要在评估期间使用向量时,我会做相反的事情:打开架子,然后通过对每个单词执行
vector = wordDB[word]
来调用向量,因为它们是需要的,因此并非所有向量都需要保存在 RAM 中(这是不可能的)。
上述“解决方案”在解决指定问题方面符合我的需要。问题很简单,当我希望使用这种方法为大量单词构建和存储向量时,我只是用完了磁盘空间。
据我所知,这是因为 shelve
对正在存储的数据进行 pickle,这不是存储大型数组的有效方式,因此使用 shelve 使这个存储问题变得棘手
表示我需要处理的字数。
问题
因此问题是:有没有一种方法可以序列化我的数组集,它将:
以类似于
scipy.save
生成的.npy
文件的压缩二进制格式保存数组本身?满足我的要求,即数据可以作为字典从磁盘读取,保持单词和数组之间的关联?
最佳答案
正如 JoshAdel 已经建议的那样,我会选择 HDF5,最简单的方法是使用 h5py:
您可以使用像 sintax 这样的字典将多个属性附加到数组:
dset.attrs["Name"] = "My Dataset"
其中 dset 是您的数据集,它可以像 numpy 数组一样精确切片,但在后台它不会将所有数组加载到内存中。
关于python - 类似字典的高效存储 scipy/numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5330010/