我在HDFS中有数百个 Parquet 文件。我在AWS S3中也有相同的文件。在EMR集群上,我运行了机器学习模型,该模型可以从HDFS或S3中获取其学习数据。
从HDFS加载数据时,与从S3加载数据相比,花费的时间更长。不应该相反吗?可能是什么原因?
显然,在两种情况下,EMR群集中使用的硬件(机器)都是相同的。
最佳答案
加载大量文件时,S3出现问题
当您使用大量小文件(小于128 MB的块大小)时,Hadoop会出现问题
假设YARN设置完全相同,我将查看HDFS卷的IOP速率,并确保您的NodeManagers与Datanodes在同一台计算机上运行
关于hadoop - 从HDFS加载 Parquet 文件比从S3加载慢。可能是什么原因呢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53305175/