java - 在 Spark 中,是否可以在两个执行者之间共享数据?

标签 java scala apache-spark

我有一个非常大的只读数据,我希望同一节点上的所有执行程序都使用它。这在 Spark 中可能吗?我知道,你可以广播变量,但你能广播非常大的数组吗?在幕后,它是否在同一节点上的执行者之间共享数据?这如何能够在同一节点上运行的执行程序的 JVM 之间共享数据?

最佳答案

是的,你可以使用 broadcast考虑数据时的变量是只读的(不可变的)。广播变量必须满足以下属性。

  • 适合内存
  • 不可变
  • 分发到集群

因此,这里唯一的条件是您的数据必须能够适合一个节点上的内存。这意味着数据不应该像大表那样超大或超出内存限制。

每个执行器都会收到广播变量的副本,并且该特定执行器中的所有任务都在读取/使用该数据。这就像向集群中的所有工作节点发送一个大的只读数据。 即,只发送给每个工作人员一次,而不是每个任务和执行者(它的任务)读取数据。

关于java - 在 Spark 中,是否可以在两个执行者之间共享数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40190756/

相关文章:

Java 到 php、字节、类型、数组

Scala val 并同时输入

apache-spark - 自定义源/接收器配置无法识别

java - 无法调试 java.lang.NoClassDefFoundError : com/google/inject/internal/util/$Preconditions

Javascript 到 java 代码不工作

java - Scala Spring IoC 和 JSF

scala - Scala.js 中 js 和 scala 函数之间的互操作

pandas - apache arrow - 并行处理的充分性

java - 在 Apache Spark Dataset<Row> 上应用 flatMap 操作时出现意外的编码器行为

java - Android OpenGL 纹理/对象检测