我有一个每天都会添加的本地文件,因此我想将这些新添加的文件同步到hdfs。
我在下面的命令中尝试过,但是所有命令都是完整副本,我想要一些仅复制新添加文件的命令
$ hdfs dfs -cp /home/user/files/* /data/files/*
最佳答案
您可以使用hsync。
https://github.com/alexholmes/hsync
它的Alex的自定义包可能对开发人员有用,但可能很难在生产环境中部署。我正在寻找类似的解决方案,但目前看来,这是最接近的。另一种选择是编写自己的Shell脚本以比较源/目标文件的时间,然后仅覆盖较新的文件。
关于hadoop - hdfs或hadoop命令在本地到hdfs之间同步文件或文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52584100/