我想知道在 TensorFlow 2.4 中迭代 tf.data.Dataset 的最有效方法是什么。
我正在使用典型的:
for example in dataset:
code
但是,我测量了挂墙时间,由于我的数据集很大,计算循环需要太多时间。有没有其他选择可以减少计算时间?
最佳答案
您可以使用 .map(map_func)
函数,这是对数据集中的每个样本应用一些预处理的有效方法。它运行 map_func
并行处理数据集的每个样本。您甚至可以通过 num_parallel_calls
设置并行调用的数量争论。 [Reference]
这是来自 tensorflow 网站的示例:
dataset = tf.data.Dataset.range(1, 6) # ==> [ 1, 2, 3, 4, 5 ]
dataset = dataset.map(lambda x: x + 1) # instead of adding 1 to each sample in a for loop
list(dataset.as_numpy_iterator()) # ==> [ 2, 3, 4, 5, 6 ]
你也可以传递一个函数:def my_map(x): # if dataset has y, it should be like "def my_map(x,y)" and "return x,y"
return x+1
dataset = tf.data.Dataset.range(1, 6) # ==> [ 1, 2, 3, 4, 5 ]
dataset = dataset.map(my_map) # instead of adding 1 to each sample in a for loop
list(dataset.as_numpy_iterator()) # ==> [ 2, 3, 4, 5, 6 ]
关于python - 迭代 tf.data.Dataset 的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68612779/