python - 使用 Python 仅将 HDF5 文件中的部分数据加载到内存中

标签 python hdf5 h5py pytables

要将 HDF5 文件中的数据加载到内存中,可以使用 pandas.read_hdf 函数和要加载的列列表。然而,这种方式是将整个表加载到内存中,然后删除一些列。因此,初始内存使用量远大于数据的实际大小。

有没有办法只加载感兴趣的列?

最佳答案

Nownuri,两者都提供了读取部分文件的方法。
使用 pytables,有几种方法可以将表读入 numpy 数组。这些包括:

  • table.read() 让您切片数据,
  • table.read_coordinates() 读取一组[noconsecutive]坐标 (又名行),
  • table.read_where()根据搜索条件读取一组

所有都支持可选的 field='' 参数来读取基于字段名称的单列数据(如 numpy recarry)。 有关完整的详细信息,请阅读 Pytables 文档。 您可以在这里找到它:PyTables User Guide

h5py 具有基于 numpy 数组切片约定的类似(但不同)方法。有关 h5py 的详细信息,请访问此处的文档:H5py Documentation

下面是每一个的非常简单(独立)的例子。我以写入模式创建数据,然后以读取模式重新打开文件。您可能只需要每个示例的后半部分(如何读取数据)。此外,HDF5 文件与创建方法无关:您可以使用 h5py 或 pytables 读取 HDF5 文件(与它们的创建方式无关)。

Pytables 方法:
此方法显示了使用 pytables 访问表的 2 种不同方式。第一种使用'Natural Naming'获取h5_i_arr,第二种使用get_node()方法读取h5_x_arr

import tables as tb
import numpy as np

with tb.File('SO_57342918_tb.h5','w') as h5f:

    i_arr=np.arange(10)
    x_arr=np.arange(10.0)

    my_dt = np.dtype([ ('i_arr', int), ('x_arr', float) ] )
    table_arr = np.recarray( (10,), dtype=my_dt )
    table_arr['i_arr'] = i_arr
    table_arr['x_arr'] = x_arr

    my_ds = h5f.create_table('/','ds1',obj=table_arr)

# read 1 column using field= parameter:   
with tb.File('SO_57342918_tb.h5','r') as h5f:

    h5_i_arr = h5f.root.ds1.read(field='i_arr')
    h5_x_arr = h5f.get_node('/ds1').read(field='x_arr')
    print (h5_i_arr)
    print (h5_x_arr)

h5py方法:

import h5py
import numpy as np

with h5py.File('SO_57342918_h5py.h5','w') as h5f:

    i_arr=np.arange(10)
    x_arr=np.arange(10.0)

    my_dt = np.dtype([ ('i_arr', int), ('x_arr', float) ] )
    table_arr = np.recarray( (10,), dtype=my_dt )
    table_arr['i_arr'] = i_arr
    table_arr['x_arr'] = x_arr

    my_ds = h5f.create_dataset('/ds1',data=table_arr)

# read 1 column using numpy slicing: 
with h5py.File('SO_57342918_h5py.h5','r') as h5f:

    h5_i_arr = h5f['ds1'][:,'i_arr']
    h5_x_arr = h5f['ds1'][:,'x_arr']
    print (h5_i_arr)
    print (h5_x_arr)

关于python - 使用 Python 仅将 HDF5 文件中的部分数据加载到内存中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57342918/

相关文章:

python - 如何在python中 append 具有相同前缀的多个数据帧

python - Python 中包含图像的 H5 文件 : Want to randomly select without replacement

python-2.7 - 使用 h5py 沿新轴将数据添加到现有 h5py 文件

python - 将 hdf5 append 到另一个 hdf5 文件

python - h5py:切片数组数据集的正确方法

Python将一个字典复制为键值的有效方法

python - 在python中将SQL表作为JSON返回

python - 用于打印日期的 django 时区

c - 直接在 HDF5 中填充值

python - 精细控制 h5py 缓冲