我们使用的是 HDP hadoop 发行版 v2.3.2,我们正在处理 Hive 外部表,并且每天都会查询这些表。
进程启动几天后,数据目录包含大量暂存目录,格式为:.hive-staging_hive_date-time_ 生成了很多暂存目录,每个暂存目录对应一个在 Hive 表上运行的查询。
我该怎么做才能避免这些暂存目录堆积到我的数据目录中?
最佳答案
我在 https://stackoverflow.com/a/35583367/14186 发布的答案可以在这里帮助你。您可以配置 Hive 以将这些暂存目录放在其他地方(通常将它们作为最终目标目录的子目录)
在那个答案的例子中,我让 hive 把它们放在/tmp 下的目录中,我们有一个每天运行的 cron-job 来删除任何超过 1 周的剩余暂存目录,以保持整洁,以防 hive不会删除它们。
关于hadoop - Hive 查询生成管理不善的登台目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35176190/