hadoop - 如何在hadoop中解压缩文件？

我试图解压缩存储在 Hadoop 文件系统中的 zip 文件，并将其存储回 hadoop 文件系统。我尝试了以下命令，但没有一个起作用。

hadoop fs -cat /tmp/test.zip|gzip -d|hadoop fs -put - /tmp/
hadoop fs -cat /tmp/test.zip|gzip -d|hadoop fs -put - /tmp
hadoop fs -cat /tmp/test.zip|gzip -d|hadoop put - /tmp/
hadoop fs -cat /tmp/test.zip|gzip -d|hadoop put - /tmp

我收到如下错误:gzip: stdin has more than one entry--rest ignored, cat: Unable to write to output stream., Error: Could当我运行这些命令时，在终端上找不到或加载主类 put。有帮助吗？

编辑 1:我无权访问 UI。因此，只允许使用命令行。 Unzip/gzip utils 安装在我的 hadoop 机器上。我使用的是 Hadoop 2.4.0 版本。

最佳答案

要解压缩 gzip(或 bzip)文件，我使用以下命令

hdfs dfs -cat /data/<data.gz> | gzip -d | hdfs dfs -put - /data/

如果文件位于您的本地驱动器上，则

zcat <infile> | hdfs dfs -put - /data/

关于hadoop - 如何在hadoop中解压缩文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29093047/

上一篇：hadoop - 自动设置 Dataproc 集群后，Yarn/Spark 的内存分配不正确

下一篇：Hadoop Map Reduce 读取一个文本文件

相关文章：

hadoop - hive ， pig ， map 减少用例之间的区别

java - 如何使用 org.apache.parquet.hadoop.ParquetWriter 将 NULL 值写入 Parquet ？

hadoop - Hadoop减少了成功完成的作业，但进程仍然存在并占用内存

hadoop - 如何将文件一个接一个地放入水槽spooldir中？

hadoop - 如何在Oozie中 fork Action

logging - Hadoop MapReduce 中间输出

hadoop - 如何使用 apache Nutch 2.3 每天从网络上抓取 100 万个文档

java - 在同一个 Maven 项目中使用多个 Guava 版本

hadoop - "the container format for fields in a row"对文件格式意味着什么？

Scala - 错误 java.lang.NoClassDefFoundError : upickle/core/Types$Writer