apache-spark - 示例 Oozie 作业可以从 Hue 运行,但不能从命令行运行 : SparkMain not found

标签 apache-spark oozie hue

我已成功运行 Hue Oozie 工作流编辑器(在 Cloudera 5.5.1 QuickStart VM 中)中提供的示例 Spark 工作流(“通过启动 Spark Java 程序复制文件”)。

我现在尝试使用 oozie 命令行工具手动运行它:

oozie job -oozie http://localhost:11000/oozie -config job.properties -run

工作流 XML 基本上没有变化 - 我已将其复制到 HDFS 并具有以下 job.properties:

nameNode=hdfs://localhost:8020
jobTracker=localhost:8032
oozie.wf.application.path=/user/cloudera/workflows/spark-scala/spark-scala.xml
input=/user/hue/oozie/workspaces/data/sonnets.txt
output=here

作业被接受并显示在 Hue Web 仪表板中,但几秒钟后被终止,日志报告:

Launcher exception: java.lang.ClassNotFoundException: Class org.apache.oozie.action.hadoop.SparkMain not found

这里有什么问题吗?

最佳答案

默认情况下,Oozie 不包含 Spark 操作的库 - 您需要将以下内容添加到 job.properties 中:

oozie.use.system.libpath=true

(在 Hue Dashboard 中点击之前成功的 Hue 工作流程,您可以选择“配置”选项卡来查看 Hue 提供的属性)

关于apache-spark - 示例 Oozie 作业可以从 Hue 运行,但不能从命令行运行 : SparkMain not found,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37410831/

相关文章:

apache-spark - Spark sql当前时间戳函数

apache-spark - Pyspark 窗口函数与其他列上的过滤器

python - 如何在 Hue 中加载和执行 Python 脚本?

c - Fastest 3, unsigned short Max/Min OR Sort for RGB -> HUE calc, 图形特定

algorithm - Apache Spark - 处理时态 RDD 上的滑动窗口

java - Apache Spark Sql——分组依据

hadoop - 带有存档操作的 Oozie 工作流

hadoop - oozie 可以忽略丢失的输入文件吗?

java - 从 REST API 轮询数据到 HDFS

hadoop - hadoop集群中HCatalog/Hive建表不导入数据到/app/hive/warehouse文件夹