azure - 如何通过命令行界面将作业(jar)提交到Azure Spark集群?

标签 azure apache-spark azure-hdinsight azure-cli

我是 HDInsight Spark 新手,我正在尝试运行一个用例来了解 Azure Spark 群集中的工作原理。这就是我到目前为止所做的。

  1. 能够创建azure Spark集群。

  2. 按照链接中所述的步骤创建 jar:create standalone scala application to run on HDInsight Spark cluster 。我使用了链接中给出的相同的 scala 代码。

  3. ssh 到头节点

  4. 使用链接将 jar 上传到 blob 存储:using azure CLI with azure storage

  5. 将 zip 复制到机器 hadoop fs -copyToLocal

我已经检查了 jar 是否已上传到头节点(机器)。 我想运行该 jar 并获得如给出的链接中所述的结果 上面第 2 点。 下一步会怎样?如何使用命令行界面提交 Spark 作业并获取结果?

最佳答案

例如,考虑到您为程序 Submit.jar 创建了 jar。为了将其提交到具有依赖关系的集群,您可以使用以下语法。

spark-submit --master yarn --deploy-mode cluster --packages "com.microsoft.azure:azure-eventhubs-spark_2.11:2.2.5" --class com.ex.abc.MainMethod "wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="5320233230367e3b373520132a3c2621313f3c317d313f3c317d303c21367d243a3d373c24207d3d3627" rel="noreferrer noopener nofollow">[email protected]</a>/xx/xx/submit.jar" "param1.json" "param2"

这里 --packages :是包含对你的程序的依赖,你可以使用 --jars 选项,然后跟上 jar 路径。 --jars“path/to/dependency/abc.jar”

--class : 程序的主要方法 之后指定程序 jar 的路径。 如果需要,您可以传递参数,如上所示

关于azure - 如何通过命令行界面将作业(jar)提交到Azure Spark集群?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40351290/

相关文章:

azure - 有没有办法将 HDInsight 的 microsoft javascript 添加到 hadoop 项目?

VM 停止时的 Azure VM 软件成本

c# - Azure.Data.Tables通用基类问题

apache-spark - 缓存和检查点是否应该在数据集上一起使用?如果是这样,这是如何在引擎盖下工作的?

apache-spark - 如何获取 Spark 朴素贝叶斯分类器中类的概率?

apache-spark - Spark : TreeAgregate at IDF is taking ages

c# - 关于使用Hadoop.WebHDFSClient时文件创建的403,尽管能够在HDFS中创建文件夹

hadoop - 替换 pig 中的字符

c# - 使用 CloudTable 对象设置查询操作的超时

c# - IIS 因 Windows Azure 存储加密而随机挂起