我有一个非常大的只读数据,我希望同一节点上的所有执行程序都使用它。这在 Spark 中可能吗?我知道,你可以广播变量,但你能广播非常大的数组吗?在幕后,它是否在同一节点上的执行者之间共享数据?这如何能够在同一节点上运行的执行程序的 JVM 之间共享数据?
最佳答案
是的,你可以使用 broadcast考虑数据时的变量是只读的(不可变的)。广播变量必须满足以下属性。
- 适合内存
- 不可变
- 分发到集群
因此,这里唯一的条件是您的数据必须能够适合一个节点上的内存。这意味着数据不应该像大表那样超大或超出内存限制。
每个执行器都会收到广播变量的副本,并且该特定执行器中的所有任务都在读取/使用该数据。这就像向集群中的所有工作节点发送一个大的只读数据。 即,只发送给每个工作人员一次,而不是每个任务和执行者(它的任务)读取数据。
关于java - 在 Spark 中,是否可以在两个执行者之间共享数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40190756/