我是 HDInsight Spark 新手,我正在尝试运行一个用例来了解 Azure Spark 群集中的工作原理。这就是我到目前为止所做的。
能够创建azure Spark集群。
按照链接中所述的步骤创建 jar:create standalone scala application to run on HDInsight Spark cluster 。我使用了链接中给出的相同的 scala 代码。
ssh 到头节点
使用链接将 jar 上传到 blob 存储:using azure CLI with azure storage
将 zip 复制到机器 hadoop fs -copyToLocal
我已经检查了 jar 是否已上传到头节点(机器)。 我想运行该 jar 并获得如给出的链接中所述的结果 上面第 2 点。 下一步会怎样?如何使用命令行界面提交 Spark 作业并获取结果?
最佳答案
例如,考虑到您为程序 Submit.jar 创建了 jar。为了将其提交到具有依赖关系的集群,您可以使用以下语法。
spark-submit --master yarn --deploy-mode cluster --packages "com.microsoft.azure:azure-eventhubs-spark_2.11:2.2.5" --class com.ex.abc.MainMethod "wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="5320233230367e3b373520132a3c2621313f3c317d313f3c317d303c21367d243a3d373c24207d3d3627" rel="noreferrer noopener nofollow">[email protected]</a>/xx/xx/submit.jar" "param1.json" "param2"
这里 --packages :是包含对你的程序的依赖,你可以使用 --jars 选项,然后跟上 jar 路径。 --jars“path/to/dependency/abc.jar”
--class : 程序的主要方法 之后指定程序 jar 的路径。 如果需要,您可以传递参数,如上所示
关于azure - 如何通过命令行界面将作业(jar)提交到Azure Spark集群?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40351290/