是否可以在主 spark 作业中生成多个 spark 作业,我的主要 spark 作业的驱动程序是在 yarn cluster 上启动的,将进行一些预处理,并基于它,它需要在 yarn cluster 上启动多个 spark 作业。不确定这种模式是否正确。
主 spark 作业将启动其他 spark-job,类似于在 Spark 驱动程序中调用多个 spark-submit。 这些为新作业生成的线程将是完全不同的组件,因此无法使用 spark 操作来实现它们。
请分享您的想法。
我为了更好地理解下面的示例代码..
Object Mainsparkjob {
main(...){
val sc=new SparkContext(..)
Fetch from hive..using hivecontext
Fetch from hbase
//spawning multiple Futures..
Val future1=Future{
Val sparkjob= SparkLauncher(...).launch; spark.waitFor
}
Similarly, future2 to futureN.
future1.onComplete{...}
}
}//end of main spark job
最佳答案
使用 oozie 等工作流管理工具来协调作业中的这种依赖关系。
Oozie 有 spark Action ,她会 Action ,give Action ,Java Action ,distcp,email 一切都在那里可用。
所以我们可以使用 oozie 在作业之间设置一个很好的体面
关于hadoop - 在主 Spark 作业中启动多个 Spark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41262187/