如果我在 ec2(或 kubernetes)上运行 Spark,我可以使用 s3/emrfs 代替 hdfs 吗?此生产是否准备就绪?它是否使用并行性从 s3 读取/处理数据?
提前致谢
最佳答案
不,EMRFS 仅适用于 EMR,这是使 S3 看起来像 HDFS 一部分的简单方法。对于 EC2,您可以连接到 S3,但这不像 EMR 那么容易。 S3 与 EC2 不紧密耦合。是的,应用了并行性,但不是根据 MR 数据局部性、worker 和数据节点。
关于apache-spark - 在 ec2 上托管的 apache Spark 中使用 AWS EMRFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53914909/