hadoop - 如何在hadoop中解压缩文件?

标签 hadoop

我试图解压缩存储在 Hadoop 文件系统中的 zip 文件,并将其存储回 hadoop 文件系统。我尝试了以下命令,但没有一个起作用。

hadoop fs -cat /tmp/test.zip|gzip -d|hadoop fs -put - /tmp/
hadoop fs -cat /tmp/test.zip|gzip -d|hadoop fs -put - /tmp
hadoop fs -cat /tmp/test.zip|gzip -d|hadoop put - /tmp/
hadoop fs -cat /tmp/test.zip|gzip -d|hadoop put - /tmp

我收到如下错误:gzip: stdin has more than one entry--rest ignored, cat: Unable to write to output stream., Error: Could当我运行这些命令时,在终端上找不到或加载主类 put。有帮助吗?

编辑 1:我无权访问 UI。因此,只允许使用命令行。 Unzip/gzip utils 安装在我的 hadoop 机器上。我使用的是 Hadoop 2.4.0 版本。

最佳答案

要解压缩 gzip(或 bzip)文件,我使用以下命令

hdfs dfs -cat /data/<data.gz> | gzip -d | hdfs dfs -put - /data/ 

如果文件位于您的本地驱动器上,则

zcat <infile> | hdfs dfs -put - /data/

关于hadoop - 如何在hadoop中解压缩文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29093047/

相关文章:

hadoop - hive , pig , map 减少用例之间的区别

java - 如何使用 org.apache.parquet.hadoop.ParquetWriter 将 NULL 值写入 Parquet ?

hadoop - Hadoop减少了成功完成的作业,但进程仍然存在并占用内存

hadoop - 如何将文件一个接一个地放入水槽spooldir中?

hadoop - 如何在Oozie中 fork Action

logging - Hadoop MapReduce 中间输出

hadoop - 如何使用 apache Nutch 2.3 每天从网络上抓取 100 万个文档

java - 在同一个 Maven 项目中使用多个 Guava 版本

hadoop - "the container format for fields in a row"对文件格式意味着什么?

Scala - 错误 java.lang.NoClassDefFoundError : upickle/core/Types$Writer