apache-spark - 在 ec2 上托管的 apache Spark 中使用 AWS EMRFS

标签 apache-spark kubernetes amazon-s3 hdfs amazon-emr

如果我在 ec2(或 kubernetes)上运行 Spark，我可以使用 s3/emrfs 代替 hdfs 吗？此生产是否准备就绪？它是否使用并行性从 s3 读取/处理数据？

提前致谢

最佳答案

不，EMRFS 仅适用于 EMR，这是使 S3 看起来像 HDFS 一部分的简单方法。对于 EC2，您可以连接到 S3，但这不像 EMR 那么容易。 S3 与 EC2 不紧密耦合。是的，应用了并行性，但不是根据 MR 数据局部性、worker 和数据节点。

关于apache-spark - 在 ec2 上托管的 apache Spark 中使用 AWS EMRFS，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53914909/

上一篇：kubernetes - 如何将自定义脚本集成到 locust helm chart stable/locust 中？

下一篇：kubernetes - 如何增加Kubernetes中已部署集群的存储容量？

相关文章：

scala - Apache Spark : How to save the dataframe results (Dataframe with joins), 所以对数据帧的操作不会改变结果？

apache-spark - 为什么无法在minikube/kubernetes上实例化运行外部Spark的外部调度程序？

kubernetes - k8s : Unable to read environment variable in livenessProbes exec

amazon-s3 - Spark s3 读取给出 NullPointerException

java - Spark : reduce causes StackOverflowError

cassandra - Spark : How to join RDDs by time range

Azure Function App 容器无法在 Minikube 容器处启动，错误代码 : The listener for function 'EventHubCSharpFunc' was unable to start

spring - 说我通过 Kubernetes 部署组件是否正确？

ruby-on-rails - AWS::S3::错误::访问拒绝。无法使用 Ruby on Rails 保存到 S3

java - 使用 AWS JAVA SDK 使用查询参数作为身份验证方法进行 V4 身份验证的 S3 操作

©2024 IT工具网联系我们