hadoop - 从多个文件读取并压缩为单个文件

标签 hadoop

Hadoop的新手。

数据被加载到不同目录中的多个文件中。任务是读取多个文件并写入/压缩为单个文件。您能否分享实现此任务的最佳选择。

最佳答案

使用cat并将结果通过管道传递到put

hadoop fs -cat /directorypath/*.txt | hadoop fs -put - outputfilepath.txt

关于hadoop - 从多个文件读取并压缩为单个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36160134/

相关文章:

hadoop - Hadoop Libjars的位置

sql - 如何从一列中获取前 10 名并按配置单元中的另一列排序?

hadoop - Hadoop和Cassandra-InvalidRequestException(为什么:需要列时间戳)

unix - 使用 Unix 的 split|grep|cat 与 Hadoop 进行搜索

logging - 合并 MapReduce 日志

java - 将 20GB CSV 文件导入 Hadoop 的最佳方法

hadoop - 如何/在哪里可以写入时间序列数据?作为 Hadoop、HBase、Cassandra 的 Parquet 格式?

java - 如何使用Java Hadoop MapReduce以降序对数据集中的列进行排序?

hadoop - 为什么在Logistic回归期间将SparkContext关闭?