hadoop - 从多个文件读取并压缩为单个文件

标签 hadoop

Hadoop的新手。

数据被加载到不同目录中的多个文件中。任务是读取多个文件并写入/压缩为单个文件。您能否分享实现此任务的最佳选择。

最佳答案

使用cat并将结果通过管道传递到put

hadoop fs -cat /directorypath/*.txt | hadoop fs -put - outputfilepath.txt

关于hadoop - 从多个文件读取并压缩为单个文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36160134/

上一篇：java - 当我将其作为jar文件运行时会出现NullPointer异常，但是在Eclipse中可以正常工作

下一篇：hadoop - 使用Pig存储在Hbase中时出错

相关文章：

hadoop - Hadoop Libjars的位置

sql - 如何从一列中获取前 10 名并按配置单元中的另一列排序？

hadoop - Hadoop和Cassandra-InvalidRequestException(为什么:需要列时间戳)

unix - 使用 Unix 的 split|grep|cat 与 Hadoop 进行搜索

logging - 合并 MapReduce 日志

java - 将 20GB CSV 文件导入 Hadoop 的最佳方法

hadoop - 如何/在哪里可以写入时间序列数据？作为 Hadoop、HBase、Cassandra 的 Parquet 格式？

java - 如何使用Java Hadoop MapReduce以降序对数据集中的列进行排序？

hadoop - 为什么在Logistic回归期间将SparkContext关闭？

©2024 IT工具网联系我们