hadoop - (HDFS) 如何在集群内安全复制大数据?

标签 hadoop hdfs

我必须制作大样本数据(比如 1TB)并且有大约 20GB 的文本文件。

所以我尝试只复制 50 次以使其更大,但每次我尝试 hadoop fs -cp 命令时,我的一些数据节点都会死掉。

我听说在 UNIX 中,删除大数据时可以使用 SHRINK 安全地从磁盘中删除数据。 hadoop中有类似的东西来复制大数据吗?

简而言之,有什么方法可以在 hadoop 集群内安全地复制大数据?

还是我必须修改一些配置文件?

最佳答案

试试distcp。它在后台运行 MR 作业以复制数据,使我们能够利用 Hadoop 提供的并行性。

关于hadoop - (HDFS) 如何在集群内安全复制大数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18393740/

相关文章:

maven - 为什么在 Hadoop 3.1.0 中删除了 DFSInotifyEventInputStream?

arrays - 在Hive中的数组内查询

hadoop - 使用Flume将文件从本地文件系统复制到HDFS

在hadoop和mapreduce上运行R脚本

python - h2o:区分本地实例和hadoop实例

hadoop - 将 S3 用于 HIVE 元存储?

python - 如何使用python将模型存储到hdfs

java - 如何创建指向 hdfs 位置的 URL 对象?

scala - Hadoop 作业在 java.lang.ClassNotFoundException 上失败

java - 使用 Java 的 map