我正在尝试使用 Dataset API 设计输入管道。我正在处理 Parquet 文件。将它们添加到我的管道中的好方法是什么?
最佳答案
我们已发布 Petastorm ,一个开源库,允许您通过 Tensorflow Dataset API 直接使用 Apache Parquet 文件。
这是一个小example :
with Reader('hdfs://.../some/hdfs/path') as reader:
dataset = make_petastorm_dataset(reader)
iterator = dataset.make_one_shot_iterator()
tensor = iterator.get_next()
with tf.Session() as sess:
sample = sess.run(tensor)
print(sample.id)
关于Tensorflow 数据集 API : input pipeline with parquet files,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51732446/