hadoop - hdfs或hadoop命令在本地到hdfs之间同步文件或文件夹

标签 hadoop hdfs

我有一个每天都会添加的本地文件,因此我想将这些新添加的文件同步到hdfs。

我在下面的命令中尝试过,但是所有命令都是完整副本,我想要一些仅复制新添加文件的命令

$ hdfs dfs -cp /home/user/files/* /data/files/*

最佳答案

您可以使用hsync。
https://github.com/alexholmes/hsync

它的Alex的自定义包可能对开发人员有用,但可能很难在生产环境中部署。我正在寻找类似的解决方案,但目前看来,这是最接近的。另一种选择是编写自己的Shell脚本以比较源/目标文件的时间,然后仅覆盖较新的文件。

关于hadoop - hdfs或hadoop命令在本地到hdfs之间同步文件或文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52584100/

相关文章:

Hadoop MapReduce 无法连接到 ResourceManager

apache-spark - 您如何使用 spark 和 elasticsearch-hadoop 从/写入不同的 ElasticSearch 集群?

hadoop - 当hue oozie工作流程失败时,这些错误日志需要存储到hive表中

hadoop - Storm 创造拓扑

hadoop - 在 Hive 中计数和分组

hadoop - 在 hadoop 服务器上运行 jar 作为服务

hadoop - 如何在配置单元表中的点(.)分隔字符串中提取最后一个单词

python - 从 python 脚本读取大型 hdfs 文件

python - 如何将传感器数据存储到 Apache Hadoop HDFS、Hive、HBase 或其他

hadoop - 创建外部临时表时在Hive中使用SQL保留字