hadoop - 在 hadoop 集群中每天限制 cleaning/tmp 是否正确

标签 hadoop hive hdp hive-configuration

我们有 HDP 集群版本 – 2.6.4

集群安装在 redhat 机器版本 – 7.2

我们注意到 JournalNodes 机器(master 机器)上存在以下问题

我们有 3 台 JournalNodes 机器,在/tmp 文件夹下我们有数千个空文件夹

drwx------.  2 hive      hadoop     6 Dec 20 09:00 a962c02e-4ed8-48a0-b4bb-79c76133c3ca_resources

还有很多文件夹

drwxr-xr-x.  4 hive      hadoop  4096 Dec 12 09:02 hadoop-unjar6426565859280369566

内容为

beeline-log4j.properties  BeeLine.properties  META-INF  org  sql-keywords.properties

/tmp 应根据配置文件每 10 天清除一次:

more  /usr/lib/tmpfiles.d/tmp.conf
#  This file is part of systemd.
#
#  systemd is free software; you can redistribute it and/or modify it
#  under the terms of the GNU Lesser General Public License as published by
#  the Free Software Foundation; either version 2.1 of the License, or
#  (at your option) any later version.

# See tmpfiles.d(5) for details

# Clear tmp directories separately, to make them easier to override
v /tmp 1777 root root 10d
v /var/tmp 1777 root root 30d

# Exclude namespace mountpoints created with PrivateTmp=yes
x /tmp/systemd-private-%b-*
X /tmp/systemd-private-%b-*/tmp
x /var/tmp/systemd-private-%b-*
X /var/tmp/systemd-private-%b-*/tmp
You have new mail in /var/spool/mail/root

因此我们将保留时间从10d减少到1d以避免这个问题

那么确实/tmp只有一天的文件夹内容

但是我想问以下问题

将Hadoop集群中/tmp的retention设置为1day可以吗?

(我几乎可以肯定,但想听听更多的意见)

第二个

为什么 HIVE 会生成数千个空文件夹作为 XXXX_resources,

是否有可能从 HIVE 服务解决它,而不是限制/tmp 上的保留

最佳答案

在/tmp 中有数千个文件夹是很正常的,只要仍有可用空间可用于正常运行。许多进程都在使用/tmp,包括 Hive、Pig 等。/tmp 的一天保留期可能太短,因为通常 Hive 或其他 map-reduce 任务可以运行超过一天,但这取决于您的任务。 HiveServer 应该删除临时文件,但是当任务失败或中止时,文件可能会保留,这也取决于 Hive 版本。最好配置一些保留,因为当/tmp 中没有剩余空间时,一切都会停止。

另请阅读此 Jira关于 HDFS 暂存目录保留。

关于hadoop - 在 hadoop 集群中每天限制 cleaning/tmp 是否正确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53866194/

相关文章:

sql - hive 相当于 "select ... into outfile"的是什么?

java - 如何使用Java API将配置单元字符串查询转换为抽象语法树?

hadoop - 如何配置MR作业中的 map 以批量执行?

java - 模拟 Hadoop 用户

java.lang.ClassCastException : cannot be cast to java. lang.Object

hadoop - 使用Ambari安装特定版本的hadoop

hadoop - Druid hadoop批处理主管:无法将类型id 'index.hadoop'解析为SupervisorSpec的子项

hadoop - 如何在 RDD [(String, Int)] 上保存 AsTextFile 时删除记录周围的括号?

hadoop - pig 错误 : while reading the Attribute from a Relation

debugging - ERROR 1066 : Unable to open iterator for alias in Pig, 通用解决方案