hadoop - 将更新的jar文件复制到Spark上的每个从属节点

标签 hadoop apache-spark cluster-computing replication

我有一个由一个主节点和多个从属节点组成的Apache Spark集群。在每个节点的jars文件夹中，我需要一个在Spark上运行的程序的jar文件。

该jar会定期更新，因此我发现自己不断地复制更新的jar文件。

有没有一种快速简便的方法可以将更新的jar文件从主服务器复制到所有从属节点，或以其他任何方式在每次jar更新时分发此文件？

最佳答案

使用spark-submit运行Spark作业时，请使用--jars选项。使用此选项，您可以将路径写入所需的jar文件。
另外，--jars选项中的jar将自动传输到集群，因此仅在主节点上需要此jar。
阅读有关如何使用此选项here的信息。

关于hadoop - 将更新的jar文件复制到Spark上的每个从属节点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48774103/

上一篇：bash - 在bash脚本中执行时捕获Yarn作业ID

下一篇：Debian docker镜像上的Mongodb - 无法站立

相关文章：

hadoop - 获取 Hive 插入的作业统计信息

java - 为什么我收到UnsatisfiedLinkError

python - 如何有效地为数据框的列名称添加前缀，而无需在 Pyspark 中创建新的数据框？

pandas - collect() 或 toPandas() 在 pyspark/EMR 中的大型 DataFrame 上

java - Tomcat session 复制 + Spring bean

java - hadoop - 由所有映射方法为特定键生成的所有值都发送到一个单一的减少方法，这是正确的吗？

hadoop2 在没有 yarn 和 mapreduce 的情况下构建 hdfs

scala - Spark Map 列中最大值对应的键

c# - .Net开源集群产品？ ...像 Terracotta

amazon-web-services - 如何停止 AWS EKS 工作线程实例