hadoop - Hadoop HDFS将文件从多个文件夹复制到一个目标文件夹

标签 hadoop command hdfs

将较小的文件从多个HDFS文件夹复制到一个目标文件夹的有效方法是什么?为了使Map-Reduce有效,还需要合并较小的文件。

最佳答案

DistCp是一种map-reduce作业,它以并行方式将文件从一个或多个源文件夹复制到一个目标文件夹。
但是,它不合并文件。
但是也许您可以使用filecrush来做到这一点! (让我知道这是怎么回事!)

关于hadoop - Hadoop HDFS将文件从多个文件夹复制到一个目标文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18080876/

相关文章:

hadoop - Hadoop Reducer提供了可写的值.Next()返回?

hadoop - MIT StarCluster 和 S3

wpf - 将命令绑定(bind)到 ToggleButton Checked 和 Unchecked 事件

java - Avro 文件写入 HDFS 导致 block 大小无效

java - 未安装 Hadoop 的 Spark ML

bash - 发送击键到 Dockerfile,Ubuntu

insert - 使用 sed 插入 TAB

hadoop - pig 示例 apache [输入路径不存在]

hdfs - 从java获取HDFS的文件夹大小

eclipse - Hadoop 2 : Setting up Hadoop 2 code in eclipse to modify source code and run/test?