python - H5Py 和存储

标签 python numpy hdf5 h5py

我正在编写一些代码,需要将非常大的 numpy 数组保存到内存中。事实上,numpy 数组太大了,我无法一次将其全部加载到内存中。但我可以分块计算数组。 IE。我的代码看起来像这样:

for i in np.arange(numberOfChunks):

   myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = #... do some calculation

因为我无法加载myArray一次全部存入内存,我想一次将其保存到一个文件中。即我想做这样的事情:

for i in np.arange(numberOfChunks):

   myArrayChunk = #... do some calculation to obtain chunk

   saveToFile(myArrayChunk, indicesInFile=[(i*chunkSize):(i*(chunkSize+1)),:,:], filename)

我知道这可以通过 h5py 来完成但我有点困惑如何做到这一点。我目前的理解是我可以这样做:

import h5py

# Make the file
h5py_file = h5py.File(filename, "a")

# Tell it we are going to store a dataset
myArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip")


for i in np.arange(numberOfChunks):

   myArrayChunk = #... do some calculation to obtain chunk

   myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk

但这就是我变得有点困惑的地方。我读过,如果您索引 h5py数据类型就像我写 myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] 时所做的那样,那么myArray的这一部分现在已被读入内存。所以可以肯定的是,在上面的循环结束时,我不是仍然得到了整个 myArray 吗?现在在内存中吗?这如何保存了我的内存?

同样,稍后,我想一次读回一大块文件,进行进一步的计算。即我想做类似的事情:

import h5py

# Read in the file
h5py_file = h5py.File(filename, "a")

# Read in myArray
myArray = h5py_file['myArray']

for i in np.arange(numberOfChunks):

   # Read in chunk
   myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]

   # ... Do some calculation on myArrayChunk

但是到这个循环结束时,整个 myArray现在在内存中吗?我有点困惑什么时候myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]是否在内存中以及何时不在内存中。请有人解释一下。

最佳答案

你已经有了基本的想法。说“保存到内存”时要小心。 NumPy 数组保存在内存 (RAM) 中。 HDF5 数据保存在磁盘上(而不是内存/RAM!),然后进行访问(使用的内存取决于您的访问方式)。第一步,您将创建数据 block 并将其写入磁盘。在第二步中,您将从磁盘中分块访问数据。最后提供了工作示例。

使用h5py读取数据时,有两种读取数据的方法:
这将返回一个 NumPy 数组:
myArrayNP = myArray[:,:,:]
这将返回一个 h5py 数据集对象,其操作类似于 NumPy 数组:
myArrayDS = myArray

区别:h5py数据集对象不会一次全部读入内存。然后您可以根据需要将它们切片。继续上面的内容,这是获取数据子集的有效操作:
myArrayChunkNP = myArrayDS[i*chunkSize):(i+1)*chunkSize),:,:]

我的示例还纠正了 block 大小增量方程中的 1 个小错误。 你有:
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
您想要:
myArray[(i*chunkSize):(i+1)*chunkSize),:,:] = myArrayChunk

工作示例(写入和读取):

import h5py
import numpy as np

# Make the file
with h5py.File("SO_61173314.h5", "w") as h5w:

    numberOfChunks = 3
    chunkSize = 4
    print( 'WRITING %d chunks with w/ chunkSize=%d ' % (numberOfChunks,chunkSize) )
    # Write dataset to disk
    h5Array = h5w.create_dataset("myArray", (numberOfChunks*chunkSize,2,2), compression="gzip")

    for i in range(numberOfChunks):

       h5ArrayChunk = np.random.random(chunkSize*2*2).reshape(chunkSize,2,2)
       print (h5ArrayChunk)

       h5Array[(i*chunkSize):((i+1)*chunkSize),:,:] = h5ArrayChunk


with h5py.File("SO_61173314.h5", "r") as h5r:
    print( '/nREADING %d chunks with w/ chunkSize=%d/n' % (numberOfChunks,chunkSize) )

    # Access myArray dataset - Note: This is NOT a NumpPy array
    myArray = h5r['myArray']

    for i in range(numberOfChunks):

       # Read a chunk into memory (as a NumPy array)
       myArrayChunk = myArray[(i*chunkSize):((i+1)*chunkSize),:,:]

       # ... Do some calculation on myArrayChunk  
       print (myArrayChunk)

关于python - H5Py 和存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61173314/

相关文章:

python - "Cloning"行或列向量

Python:在不使用迭代的情况下将for循环操作扩展到矩阵中的每一行

python - 如何在 Python 3 中测试所有可迭代对象是否为真

python - 在 Pandas Series 中删除带有标签条件的行

python - 对角蛇填充数组

python - 使用 Python 删除 HDF 存储中的键/表

python - 如何在表单的 __init__ 函数中绑定(bind)字段

python - 来自具有不同长度的列表列表的 NumPy 数组(填充)

python-2.7 - 删除 h5py 数据集的项目,但文件大小加倍

python - 如何在Python中将HDF5文件直接上传到S3存储桶