azure - 如何通过命令行界面将作业(jar)提交到Azure Spark集群？

标签 azure apache-spark azure-hdinsight azure-cli

我是 HDInsight Spark 新手，我正在尝试运行一个用例来了解 Azure Spark 群集中的工作原理。这就是我到目前为止所做的。

能够创建azure Spark集群。
按照链接中所述的步骤创建 jar:create standalone scala application to run on HDInsight Spark cluster 。我使用了链接中给出的相同的 scala 代码。
ssh 到头节点
使用链接将 jar 上传到 blob 存储:using azure CLI with azure storage
将 zip 复制到机器 hadoop fs -copyToLocal

我已经检查了 jar 是否已上传到头节点(机器)。我想运行该 jar 并获得如给出的链接中所述的结果上面第 2 点。下一步会怎样？如何使用命令行界面提交 Spark 作业并获取结果？

最佳答案

例如，考虑到您为程序 Submit.jar 创建了 jar。为了将其提交到具有依赖关系的集群，您可以使用以下语法。

spark-submit --master yarn --deploy-mode cluster --packages "com.microsoft.azure:azure-eventhubs-spark_2.11:2.2.5" --class com.ex.abc.MainMethod "wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="5320233230367e3b373520132a3c2621313f3c317d313f3c317d303c21367d243a3d373c24207d3d3627" rel="noreferrer noopener nofollow">[email protected]</a>/xx/xx/submit.jar" "param1.json" "param2"

这里 --packages :是包含对你的程序的依赖，你可以使用 --jars 选项，然后跟上 jar 路径。 --jars“path/to/dependency/abc.jar”

--class : 程序的主要方法之后指定程序 jar 的路径。如果需要，您可以传递参数，如上所示

关于azure - 如何通过命令行界面将作业(jar)提交到Azure Spark集群？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40351290/

上一篇：Azure 存储 - 公开具有文件结构的容器

下一篇：sql-server - 来自 SQL Server 的 Azure 存储中的 blob 列表

VM 停止时的 Azure VM 软件成本

c# - Azure.Data.Tables通用基类问题

apache-spark - 缓存和检查点是否应该在数据集上一起使用？如果是这样，这是如何在引擎盖下工作的？

apache-spark - 如何获取 Spark 朴素贝叶斯分类器中类的概率？

apache-spark - Spark : TreeAgregate at IDF is taking ages

c# - 关于使用Hadoop.WebHDFSClient时文件创建的403，尽管能够在HDFS中创建文件夹

hadoop - 替换 pig 中的字符

c# - 使用 CloudTable 对象设置查询操作的超时

c# - IIS 因 Windows Azure 存储加密而随机挂起