java - 在 Spark 中，是否可以在两个执行者之间共享数据？

我有一个非常大的只读数据，我希望同一节点上的所有执行程序都使用它。这在 Spark 中可能吗？我知道，你可以广播变量，但你能广播非常大的数组吗？在幕后，它是否在同一节点上的执行者之间共享数据？这如何能够在同一节点上运行的执行程序的 JVM 之间共享数据？

最佳答案

是的，你可以使用 broadcast考虑数据时的变量是只读的(不可变的)。广播变量必须满足以下属性。

因此，这里唯一的条件是您的数据必须能够适合一个节点上的内存。这意味着数据不应该像大表那样超大或超出内存限制。

每个执行器都会收到广播变量的副本，并且该特定执行器中的所有任务都在读取/使用该数据。这就像向集群中的所有工作节点发送一个大的只读数据。即，只发送给每个工作人员一次，而不是每个任务和执行者(它的任务)读取数据。

关于java - 在 Spark 中，是否可以在两个执行者之间共享数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40190756/

相关文章：

Java 到 php、字节、类型、数组