我有以下要求。我正在将日期数据添加到 HDFS 中的特定目录,我需要保留最后 3 组的备份,并删除其余的。有没有办法为目录设置一个 TTL,以便数据在一定天数后自动消失?
如果没有,有没有办法达到类似的结果?
最佳答案
此功能在 HDFS 上尚不可用。
创建了一个 JIRA 票证来支持此功能:https://issues.apache.org/jira/browse/HDFS-6382
但是,修复尚不可用。
您需要使用 cron 作业来处理它。您可以创建一个作业(这可以是一个简单的 Shell、Perl 或 Python 脚本),它会定期删除早于特定预配置时间段的数据。
这项工作可以:
- 定期运行(例如每小时一次或每天一次)
- 将需要检查的文件夹或文件列表及其 TTL 作为输入
- 删除任何早于指定 TTL 的文件或文件夹。
这可以使用脚本轻松实现。
关于hadoop - 有没有办法为 HDFS 中的某些目录设置 TTL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34625817/