hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性?

标签 hadoop apache-spark hdfs

我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性?
如果我使用 Spark 独立集群管理器并将我的数据分布在 HDFS 集群中,Spark 如何知道数据位于本地节点上?

最佳答案

YARN 是一个资源管理器。它处理内存和进程,而不处理 HDFS 或数据局部性的工作。

既然 Spark 可以从 HDFS 源中读取,并且名称节点和数据节点负责 YARN 之外的所有 HDFS block 数据管理,那么我认为答案是否定的,您不需要 YARN。但是您已经拥有 HDFS,这意味着您拥有 Hadoop,那么为什么不利用将 Spark 集成到 YARN 中呢?

关于hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40101578/

相关文章:

hadoop - 混淆 HDFS 'pwd' 等价物

hadoop - 无法将文件复制到HDFS

java - hdfs dfs -ls 的默认值

hadoop - 一项 hadoop MR 作业的多个 HDFS 源

Hadoop Balancer 失败并显示 - IOException : Couldn't set up IO streams (LeaseRenewer Warning)

hadoop - 使用Cloudera Manager停用节点

apache-spark - 如何判断我正在Spark中运行哪个应用程序?

docker - kubernetes 无法从 spark master 主机中提取图像

apache-spark - Spark Streaming 在 java 中将 Dataset<Row> 转换为 Dataset<CustomObject>

Hadoop 配置属性