apache-spark - 在 ec2 上托管的 apache Spark 中使用 AWS EMRFS

标签 apache-spark kubernetes amazon-s3 hdfs amazon-emr

如果我在 ec2(或 kubernetes)上运行 Spark,我可以使用 s3/emrfs 代替 hdfs 吗?此生产是否准备就绪?它是否使用并行性从 s3 读取/处理数据?

提前致谢

最佳答案

不,EMRFS 仅适用于 EMR,这是使 S3 看起来像 HDFS 一部分的简单方法。对于 EC2,您可以连接到 S3,但这不像 EMR 那么容易。 S3 与 EC2 不紧密耦合。是的,应用了并行性,但不是根据 MR 数据局部性、worker 和数据节点。

关于apache-spark - 在 ec2 上托管的 apache Spark 中使用 AWS EMRFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53914909/

相关文章:

scala - Apache Spark : How to save the dataframe results (Dataframe with joins), 所以对数据帧的操作不会改变结果?

apache-spark - 为什么无法在minikube/kubernetes上实例化运行外部Spark的外部调度程序?

kubernetes - k8s : Unable to read environment variable in livenessProbes exec

amazon-s3 - Spark s3 读取给出 NullPointerException

java - Spark : reduce causes StackOverflowError

cassandra - Spark : How to join RDDs by time range

Azure Function App 容器无法在 Minikube 容器处启动,错误代码 : The listener for function 'EventHubCSharpFunc' was unable to start

spring - 说我通过 Kubernetes 部署组件是否正确?

ruby-on-rails - AWS::S3::错误::访问拒绝。无法使用 Ruby on Rails 保存到 S3

java - 使用 AWS JAVA SDK 使用查询参数作为身份验证方法进行 V4 身份验证的 S3 操作