hadoop - 如何防止 CDH 中的 Hue 在重启时清除作业历史记录？

标签 hadoop apache-spark cloudera-cdh hue cloudera-manager

我已经安装了 CDH 5.5.1 和 Hue、Hadoop、Spark、Hive、Oozie、Yarn 和 ZooKeeper。

当我运行 Spark 作业或 MapReduce 作业时，Hue 会在作业历史记录中显示一个问题。问题是，当我重新启动 CDH 服务(不是物理节点)时，它会删除重新启动之前的所有作业历史记录。

在 Hadoop 上，我怀疑有几个文件包含有关任务的信息，并且可能是保存作业信息的文件。他们的 hadoop 路径是:

/tmp/logs/user/logs/
/user/history/done/2016/

我在Cloudera Manager配置页面、Hue配置页面和一些配置文件中都找过，都没有找到。我不知道如何防止这种删除。我错过了什么吗？

最佳答案

如果您真的只需要查看 Hadoop 集群上的作业历史记录，YARN 历史服务器应该具有集群上运行的所有 YARN 作业的历史记录。

Hue 有一张针对您描述的问题的 JIRA 票证，标题为“作业浏览器应与 YARN 历史服务器对话以显示旧作业”:https://issues.cloudera.org/browse/HUE-2558 .基本上，Hue 需要与 YARN 历史服务器(而不仅仅是资源管理器)对话以获取您正在寻找的信息。

好消息是该任务似乎已经完成并包含在 2017 年 5 月 11 日发布的 Hue 4.0 中。坏消息是 Cloudera 尚未发布包含该版本 Hue 的版本。

关于hadoop - 如何防止 CDH 中的 Hue 在重启时清除作业历史记录？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36482185/

上一篇：hadoop - 什么是 MapReduce 框架？

下一篇：linux - ./start-hbase.sh 不是独立启动的

mysql - hive 中的分区

apache - 无法获取文件名问题的 VFS 文件对象

python - 结合多个带有不同列的pyspark数据框

java - 如何向Dataframe添加一些信息？

java - 没有编码器发现嵌套 Java 类的错误

hadoop - 将合并器用于mapreduce二级排序

格式化节点时Hadoop unknownhostexception

java - 无法验证 serde : org. openx.data.jsonserde.jsonserde

hadoop - 为什么我在 Hadoop 2 中有这么多映射器