hadoop - 从HDFS加载 Parquet 文件比从S3加载慢。可能是什么原因呢？

标签 hadoop amazon-s3

我在HDFS中有数百个 Parquet 文件。我在AWS S3中也有相同的文件。在EMR集群上，我运行了机器学习模型，该模型可以从HDFS或S3中获取其学习数据。

从HDFS加载数据时，与从S3加载数据相比，花费的时间更长。不应该相反吗？可能是什么原因？

显然，在两种情况下，EMR群集中使用的硬件(机器)都是相同的。

最佳答案

加载大量文件时，S3出现问题

当您使用大量小文件(小于128 MB的块大小)时，Hadoop会出现问题

假设YARN设置完全相同，我将查看HDFS卷的IOP速率，并确保您的NodeManagers与Datanodes在同一台计算机上运行

关于hadoop - 从HDFS加载 Parquet 文件比从S3加载慢。可能是什么原因呢？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53305175/

上一篇：mongodb - Mongo docker-具有indexCreate的Dockerfile

下一篇：docker - Dockerfile抛出错误 “no such file or directory”

hadoop - 如何更改配置单元表的色相中的列类型？

amazon-s3 - EMR Spark 壳不捡 jar

hadoop - 是否可以将正则表达式用作 JavaSparkContext 的文本输入格式分隔符？

hadoop - HiveContext 不适用于 Oozie

python - Hadoop Map中最高/最低温度的python mapreduce示例

node.js - 我应该在哪里存储我的 Node.js 应用程序的 key ？

node.js - 如何使用 node.js、Express 和 knox 将文件从浏览器上传到 Amazon S3？

amazon-web-services - 将 S3 存储桶从一个 AWS 账户复制到另一个 AWS 账户在传输过程中是否安全？

javascript - 为什么 jQuery 文件 uploader 中的 processQueue 在这里不起作用？