每天我都会计算一些统计信息并将其存储在文件中(约40行数据)。以下df是每天计算的。问题是当我每天将其存储为一个新文件时,我不想这样做,因为hadoop无法很好地处理多个小文件。我也不能覆盖该文件,因为我也需要历史数据。
df.repartition(1).write.save(mypath, format='parquet',mode='append', header='true')
最佳答案
您可以每天通过此操作覆盖相同的旧文件。
DF.write.mode(SaveMode.Overwrite)
关于apache-spark - Hadoop Spark-存储在一个大文件中,而不是存储许多小文件和索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50684971/