hadoop - 在主 Spark 作业中启动多个 Spark 作业

标签 hadoop apache-spark

是否可以在主 spark 作业中生成多个 spark 作业,我的主要 spark 作业的驱动程序是在 yarn cluster 上启动的,将进行一些预处理,并基于它,它需要在 yarn cluster 上启动多个 spark 作业。不确定这种模式是否正确。

主 spark 作业将启动其他 spark-job,类似于在 Spark 驱动程序中调用多个 spark-submit。 这些为新作业生成的线程将是完全不同的组件,因此无法使用 spark 操作来实现它们。 enter image description here

请分享您的想法。

我为了更好地理解下面的示例代码..

Object Mainsparkjob {

main(...){

val sc=new SparkContext(..)

Fetch from hive..using hivecontext
Fetch from hbase

//spawning multiple Futures..
Val future1=Future{
Val sparkjob= SparkLauncher(...).launch; spark.waitFor
}

Similarly, future2 to futureN.

future1.onComplete{...}
}
}//end of main spark job

最佳答案

使用 oozie 等工作流管理工具来协调作业中的这种依赖关系。

Oozie 有 spark Action ,她会 Action ,give Action ,Java Action ,distcp,email 一切都在那里可用。

所以我们可以使用 oozie 在作业之间设置一个很好的体面

关于hadoop - 在主 Spark 作业中启动多个 Spark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41262187/

相关文章:

scala - 控制配置设置 Apache Spark UTF 编码以写入为 saveAsTextFile

apache-spark - 为什么重用 SparkContext 可以大大加快查询速度

hadoop - Hadoop 1.0.0 中的可拆分 Bz2 输入

string - 如何在命令行中使用感叹号作为字符串的一部分?

java - 提交后 SparkAppHandle 状态丢失,但驱动程序运行完美

python - 如何解压字符串格式的列表列表?

python - 我可以在提交 spark 作业时向 python 代码添加参数吗?

hadoop - 如何将文件从远程服务器复制到HDFS

java - 在 Windows 上的 Hadoop 2.6.0 上运行 Map reduce 时出错

hadoop - 从 Hive 插入到 Hbase 时出错