linux - 将数据从一个 HDFS 目录连续复制到另一个目录

标签 linux hadoop hdfs rsync

我在 hdfs 中有一个目录,它每 2 天填充一次文件。我想将此目录中的所有文件复制到另一个目录中,这样如果今天有新文件出现,我希望将该文件复制到重复的目录中。

我们如何在 Hdfs 中做到这一点。

我知道我们可以在 linux 中使用 rsync 来做到这一点。 Hdfs也有这样的方法吗?

最佳答案

不,HDFS 没有可用的文件同步方法。您必须手动或通过任何调度程序 (cron) 执行 hdfs dfs -cphadoop distcp

如果文件数量较多,优先使用distcp

hadoop distcp -update <src_dir> <dest_dir>

如果源和目标的大小、 block 大小或校验和不同,-update 标志将覆盖。

关于linux - 将数据从一个 HDFS 目录连续复制到另一个目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42446532/

相关文章:

hadoop - 如何将现有Hbase数据迁移到新集群

linux -/usr/bin/ld : cannot find -lcurl

hadoop - 如何从 HIVE 中的日期中减去月份

java - 在Ubuntu 12.04上安装Hadoop 2.6.0

hadoop - OOZIE 中的多输入路径配置

java - 访问hadoop文件系统中的文件

c++ - 如何使用 `execl()` 在 C/C++ 中运行系统命令,将函数参数仅作为命令行而不是可执行文件传递?

c - 从内核获取当前驱动器路径

linux - ARM板的交叉编译?

hadoop - 将 mapreduce 的输出合并到另一个目录结构中