我试图通过以下代码从目录中读取多个 csv 文件,但它将每个数据帧的大小从 150000 更改为 150001,这在我使用大小为 150000 的训练数据集输出进行测试时会出现问题。任何机构都可以解决这个问题吗?因为我是 ML 的完全初学者,所以我们将不胜感激,请注意,dataFrame.iloc() 在这种情况下不起作用。
# indir = ".//test"
# os.chdir(indir)
fileList = glb.glob("*.csv")
# dfList = []
for filenames in fileList:
print(filenames)
df = pd.read_csv(filenames, header=None`
df[0][0] = 0
df.iloc[0:]
print(df.size)
# dfList.append(df)
最佳答案
你为什么要放 header = None
。如果您已经知道 csv 文件的第一行是列名称,则输入 header = 0
这将告诉 pandas 将第一行读取为标题而不是一行。这将产生正确的尺寸。
此外,对于您的代码,您不会删除第一行,因此它是错误的。要删除第一行,您必须使用 df = df.iloc[1:]
关于python - 如何减小数据框的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56361557/