hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性？

我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性？
如果我使用 Spark 独立集群管理器并将我的数据分布在 HDFS 集群中，Spark 如何知道数据位于本地节点上？

最佳答案

YARN 是一个资源管理器。它处理内存和进程，而不处理 HDFS 或数据局部性的工作。

既然 Spark 可以从 HDFS 源中读取，并且名称节点和数据节点负责 YARN 之外的所有 HDFS block 数据管理，那么我认为答案是否定的，您不需要 YARN。但是您已经拥有 HDFS，这意味着您拥有 Hadoop，那么为什么不利用将 Spark 集成到 YARN 中呢？

关于hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40101578/

相关文章：

hadoop - 混淆 HDFS 'pwd' 等价物