Tensorflow 数据集 API : input pipeline with parquet files

标签 tensorflow pipeline parquet

我正在尝试使用 Dataset API 设计输入管道。我正在处理 Parquet 文件。将它们添加到我的管道中的好方法是什么?

最佳答案

我们已发布 Petastorm ,一个开源库,允许您通过 Tensorflow Dataset API 直接使用 Apache Parquet 文件。

这是一个小example :

   with Reader('hdfs://.../some/hdfs/path') as reader:
        dataset = make_petastorm_dataset(reader)
        iterator = dataset.make_one_shot_iterator()
        tensor = iterator.get_next()
        with tf.Session() as sess:
            sample = sess.run(tensor)
            print(sample.id)

关于Tensorflow 数据集 API : input pipeline with parquet files,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51732446/

相关文章:

tensorflow - 如何结合两个卡住模型(Tensorflow)进行物体检测?

python - 多个 scikit 学习管道的奇怪行为

c# - 如何使这个异步方法调用工作?

azure - 如何在 Azure 数据工厂中将 csv 转换为 parquet

python - 无法在 tensorflow 中训练玩具 LSTM

python - 具有正映射的线性回归

apache-spark - Spark中区分大小写的拼花模式合并

apache-spark - Parquet 如何处理 SparseVector 列?

python - tensorflow 精度指标返回值的含义

gitlab - 在不运行手动阶段的情况下接受合并请求