hadoop - 如何防止 CDH 中的 Hue 在重启时清除作业历史记录?

标签 hadoop apache-spark cloudera-cdh hue cloudera-manager

我已经安装了 CDH 5.5.1HueHadoopSparkHiveOozieYarnZooKeeper

当我运行 Spark 作业或 MapReduce 作业时,Hue 会在作业历史记录中显示一个问题。问题是,当我重新启动 CDH 服务(不是物理节点)时,它会删除重新启动之前的所有作业历史记录。

Job Browser screenshot

在 Hadoop 上,我怀疑有几个文件包含有关任务的信息,并且可能是保存作业信息的文件。他们的 hadoop 路径是:

  • /tmp/logs/user/logs/
  • /user/history/done/2016/

我在Cloudera Manager配置页面、Hue配置页面和一些配置文件中都找过,都没有找到。我不知道如何防止这种删除。我错过了什么吗?

最佳答案

如果您真的只需要查看 Hadoop 集群上的作业历史记录,YARN 历史服务器应该具有集群上运行的所有 YARN 作业的历史记录。

Hue 有一张针对您描述的问题的 JIRA 票证,标题为“作业浏览器应与 YARN 历史服务器对话以显示旧作业”:https://issues.cloudera.org/browse/HUE-2558 .基本上,Hue 需要与 YARN 历史服务器(而不仅仅是资源管理器)对话以获取您正在寻找的信息。

好消息是该任务似乎已经完成并包含在 2017 年 5 月 11 日发布的 Hue 4.0 中。坏消息是 Cloudera 尚未发布包含该版本 Hue 的版本。

关于hadoop - 如何防止 CDH 中的 Hue 在重启时清除作业历史记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36482185/

相关文章:

hadoop - Hadoop Datanode失败,返回值3(启用Kerberos)

mysql - hive 中的分区

apache - 无法获取文件名问题的 VFS 文件对象

python - 结合多个带有不同列的pyspark数据框

java - 如何向Dataframe添加一些信息?

java - 没有编码器发现嵌套 Java 类的错误

hadoop - 将合并器用于mapreduce二级排序

格式化节点时Hadoop unknownhostexception

java - 无法验证 serde : org. openx.data.jsonserde.jsonserde

hadoop - 为什么我在 Hadoop 2 中有这么多映射器