hadoop - 在主 Spark 作业中启动多个 Spark 作业

标签 hadoop apache-spark

是否可以在主 spark 作业中生成多个 spark 作业，我的主要 spark 作业的驱动程序是在 yarn cluster 上启动的，将进行一些预处理，并基于它，它需要在 yarn cluster 上启动多个 spark 作业。不确定这种模式是否正确。

主 spark 作业将启动其他 spark-job，类似于在 Spark 驱动程序中调用多个 spark-submit。这些为新作业生成的线程将是完全不同的组件，因此无法使用 spark 操作来实现它们。

请分享您的想法。

我为了更好地理解下面的示例代码..

Object Mainsparkjob {

main(...){

val sc=new SparkContext(..)

Fetch from hive..using hivecontext
Fetch from hbase

//spawning multiple Futures..
Val future1=Future{
Val sparkjob= SparkLauncher(...).launch; spark.waitFor
}

Similarly, future2 to futureN.

future1.onComplete{...}
}
}//end of main spark job

最佳答案

使用 oozie 等工作流管理工具来协调作业中的这种依赖关系。

Oozie 有 spark Action ，她会 Action ，give Action ，Java Action ，distcp，email 一切都在那里可用。

所以我们可以使用 oozie 在作业之间设置一个很好的体面

关于hadoop - 在主 Spark 作业中启动多个 Spark 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41262187/

上一篇：hadoop - Hadoop 中的节点数

下一篇：scala - 在 Scala/Spark 中从 RDD 中提取数据

apache-spark - 为什么重用 SparkContext 可以大大加快查询速度

hadoop - Hadoop 1.0.0 中的可拆分 Bz2 输入

string - 如何在命令行中使用感叹号作为字符串的一部分？

java - 提交后 SparkAppHandle 状态丢失，但驱动程序运行完美

python - 如何解压字符串格式的列表列表？

python - 我可以在提交 spark 作业时向 python 代码添加参数吗？

hadoop - 如何将文件从远程服务器复制到HDFS

java - 在 Windows 上的 Hadoop 2.6.0 上运行 Map reduce 时出错

hadoop - 从 Hive 插入到 Hbase 时出错