apache-spark - 使用 SparkLauncher 以编程方式向 dse Spark 集群提交 Spark 作业

标签 apache-spark datastax-enterprise

我对 Spark 和 DSE 比较陌生,我正在尝试以编程方式向 DSE Spark 集群提交 Spark 作业?

我正在使用 org.apache.spark.launcher.SparkLauncher API。我尝试遵循 SparkLauncher 的文档。

Process launcher = new SparkLauncher().setAppName("appName")
                    .setAppResource("spark-job.jar")
                    .setSparkHome("spark-home")
                    .setMainClass("main-class")
                    .setVerbose(true).launch();
launcher.waitFor();

但它似乎没有在 dse 集群上启动该作业。我可以使用以下命令手动触发作业:dse spark-submit 命令

非常感谢这里的任何帮助。谢谢!

最佳答案

我相信这与没有设置你的sparkHOME有关。在 DSE 中识别您的 Spark Home,然后添加

.setSparkHome("sparkHomeDir")

你宁愿使用 SparkHandle 而不是阻塞等待。

SparkAppHandle handle = launcher.startApplication();

关于apache-spark - 使用 SparkLauncher 以编程方式向 dse Spark 集群提交 Spark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42034392/

相关文章:

database - 您会使用Cassandra进行汇总查询吗?

Cassandra : memory consumption while compacting

python - 如何为 Solr 设置 dsetool 身份验证?

python - 从发送到 spark-submit 的外部 __main__ 文件修改 SparkContext

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException 错误

apache-spark - 无法访问 Apache Spark 上的我的数据框列

apache-spark - Spark webUI - 完成的应用详情页面

hadoop - Apache Spark数据建模-我是否更希望使用非规范化或联接来提高查询性能?

apache-spark - 在 Key 上组合两个 Spark Streams

scala - 如何在 Spark 中读取 cassandra 分区时获得良好的性能?