hadoop - 有没有办法为 HDFS 中的某些目录设置 TTL?

标签 hadoop hdfs ttl

我有以下要求。我正在将日期数据添加到 HDFS 中的特定目录,我需要保留最后 3 组的备份,并删除其余的。有没有办法为目录设置一个 TTL,以便数据在一定天数后自动消失?

如果没有,有没有办法达到类似的结果?

最佳答案

此功能在 HDFS 上尚不可用。

创建了一个 JIRA 票证来支持此功能:https://issues.apache.org/jira/browse/HDFS-6382

但是,修复尚不可用。

您需要使用 cron 作业来处理它。您可以创建一个作业(这可以是一个简单的 Shell、Perl 或 Python 脚本),它会定期删除早于特定预配置时间段的数据。

这项工作可以:

  • 定期运行(例如每小时一次或每天一次)
  • 将需要检查的文件夹或文件列表及其 TTL 作为输入
  • 删除任何早于指定 TTL 的文件或文件夹。

这可以使用脚本轻松实现。

关于hadoop - 有没有办法为 HDFS 中的某些目录设置 TTL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34625817/

相关文章:

hadoop - Hadoop 是适合这个的技术吗?

hadoop - 如何使用 apache NiFi 将 csv 或 JSON 文件存储到配置单元?

hadoop - Apache Nifi MergeContent 输出数据不一致?

hadoop - Hadoop文件系统Shell:bin/hdfs dfs <args>

c# - 使用 Servicestack 在 RabbitMQ 队列上设置 TTL

data-structures - 在 Go 中使用 TTL 选项映射

hadoop - Druid/Hadoop批处理索引/Map Reduce/YARN/无远程,仅本地

apache - hadoop的开源GUI工具?

hadoop - 如何在 HDFS 中查找文件的创建日期

node.js - 如何使用 Node 接收 Redis 过期事件?