Tensorflow 数据集 API : input pipeline with parquet files

我正在尝试使用 Dataset API 设计输入管道。我正在处理 Parquet 文件。将它们添加到我的管道中的好方法是什么？

最佳答案

我们已发布 Petastorm ，一个开源库，允许您通过 Tensorflow Dataset API 直接使用 Apache Parquet 文件。

这是一个小example :

   with Reader('hdfs://.../some/hdfs/path') as reader:
        dataset = make_petastorm_dataset(reader)
        iterator = dataset.make_one_shot_iterator()
        tensor = iterator.get_next()
        with tf.Session() as sess:
            sample = sess.run(tensor)
            print(sample.id)

关于Tensorflow 数据集 API : input pipeline with parquet files，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51732446/

上一篇：openid - "Generic"ASP.NET MVC 5 中的 OpenID

下一篇：powershell - 使用 cmdets 将文件上传到 Azure 上的存储

python - 多个 scikit 学习管道的奇怪行为

c# - 如何使这个异步方法调用工作？

azure - 如何在 Azure 数据工厂中将 csv 转换为 parquet

python - 无法在 tensorflow 中训练玩具 LSTM

python - 具有正映射的线性回归

apache-spark - Spark中区分大小写的拼花模式合并

apache-spark - Parquet 如何处理 SparseVector 列？

python - tensorflow 精度指标返回值的含义

gitlab - 在不运行手动阶段的情况下接受合并请求