hadoop - Hive 查询生成管理不善的登台目录

标签 hadoop hive bigdata

我们使用的是 HDP hadoop 发行版 v2.3.2,我们正在处理 Hive 外部表,并且每天都会查询这些表。

进程启动几天后,数据目录包含大量暂存目录,格式为:.hive-staging_hive_date-time_ 生成了很多暂存目录,每个暂存目录对应一个在 Hive 表上运行的查询。

我该怎么做才能避免这些暂存目录堆积到我的数据目录中?

最佳答案

我在 https://stackoverflow.com/a/35583367/14186 发布的答案可以在这里帮助你。您可以配置 Hive 以将这些暂存目录放在其他地方(通常将它们作为最终目标目录的子目录)

在那个答案的例子中,我让 hive 把它们放在/tmp 下的目录中,我们有一个每天运行的 cron-job 来删除任何超过 1 周的剩余暂存目录,以保持整洁,以防 hive不会删除它们。

关于hadoop - Hive 查询生成管理不善的登台目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35176190/

相关文章:

amazon-web-services - Amazon Hive 中的多分隔符 SerDe 设置

azure - 选择长期存储/分析系统?

hadoop - Hive Oozie 错误处理

hadoop - HDFS如何写入数据节点上的磁盘

Hadoop:如何在其他节点上启动辅助名称节点?

database - Splunk 和其他数据库解决方案

hadoop - 元数据错误 : org. apache.thrift.transport.TTransportException

apache - 哈多普 : supporting multiple outputs for Map Reduce jobs

hadoop - hortonworks 沙箱配置单元 Metastore 不工作

mysql - HIVE 或 SQL 查询用于比较相同样本量的售前和售后