使用make_csv_dataset
我们可以将 CSV 文件读取到 tensorflow 数据集对象
csv_data = tf.data.experimental.make_csv_dataset(
"./train.csv",
batch_size=8190,
num_epochs=1,
ignore_errors=True,)
现在csv_data
类型为tensorflow.python.data.ops.dataset_ops.MapDataset
。如何找到 csv_data
的大小或形状.
print(csv_data)
给出列信息如下
<MapDataset element_spec={'title': TensorSpec(shape=(None,), dtype=tf.string, name=None), 'user_id': TensorSpec(shape=(None,), dtype=tf.string, name=None)}>
当然可以从 train_recom.csv
获取使用和pandas.read_csv
是可选的,只是好奇 tensorflow 是否有更简单的东西。
最佳答案
如果您想在不进行任何预处理步骤的情况下获取批处理数据集的大小,请尝试:
import pandas as pd
import tensorflow as tf
df = pd.DataFrame(data={'A': [50.1, 1.23, 4.5, 4.3, 3.2], 'B':[50.1, 1.23, 4.5, 4.3, 3.2], 'C':[5.2, 3.1, 2.2, 1., 3.]})
df.to_csv('data1.csv', index=False)
df.to_csv('data2.csv', index=False)
dataset = tf.data.experimental.make_csv_dataset(
"/content/*.csv",
batch_size=2,
field_delim=",",
num_epochs=1,
select_columns=['A', 'B', 'C'],
label_name='C')
dataset_len = len(list(dataset.map(lambda x, y: (x, y))))
print(dataset_len)
5
如果您想知道总共有多少个样本,请尝试unbatch
:
dataset_len = len(list(dataset.unbatch().map(lambda x, y: (x, y))))
print(dataset_len)
# 10
关于python-3.x - 如何查找tensorflow.python.data.ops.dataset_ops.MapDataset对象的大小或形状,make_csv_dataset的输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71552166/