我正在尝试使用REST服务来使用Dataproc API客户端触发Spark作业。但是,dataproc集群中的每个作业需要10到15秒的时间来初始化Spark驱动程序并提交应用程序。我想知道是否有一种有效的方法来消除由gs存储桶中的JAR文件触发的Spark Java作业的初始化时间?我正在考虑的一些解决方案是:
有没有更有效的方法?如何在Google Dataproc中实现上述方式?
最佳答案
您可能需要研究Spark Job Server:https://github.com/spark-jobserver/spark-jobserver,而不是亲自编写此逻辑,因为这应允许您重用Spark上下文。
您可以为Dataproc编写一个驱动程序,该程序接受来自REST服务器的RPC,然后自己重新使用SparkContext,然后通过Jobs API提交此驱动程序,但我个人将首先考察作业服务器。
关于hadoop - 最小化Google Dataproc上Apache Spark作业的初始化时间的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35751897/