hadoop - 如何在 MapReduce 结果后将输出文件导出回 CSV

标签 hadoop mapreduce

我找不到出路,如何将 Hadoop Mapreduce 结果导出回,例如CSV 或其他文件格式。

有人知道怎么做吗?很想知道。

请注意,我指的是 Hadoop 的结果,例如输出1/part.00000

最佳答案

默认情况下,它们实际上是 TSV(制表符分隔),您可以通过设置来更改

  mapred.textoutputformat.separator=","

然后您可以通过 hdfs -get 命令从 HDFS 下载它,或使用 -merge 命令在单个本地文件中获取所有 part-ooo* 文件的合并输出

  hadoop fs -get hdfs://nn.example.com/user/hadoop/file localfile

  Usage: hadoop fs -getmerge <src> <localdst> [addnl]

关于hadoop - 如何在 MapReduce 结果后将输出文件导出回 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24379145/

相关文章:

python - MapReduce编程过滤大输入文件

hadoop - 什么决定了 MapReduce 应用程序的本地化率?

hadoop - javax.security.auth.login.LoginException:登录失败

mongodb - MapReduce MongoDB 用户代理

hadoop - 字符引用 "&#1"是无效的 XML 字符

apache-spark - 最佳的架构来过滤来自9000万用户的数据?

java - Hadoop MultipleInputs,具有不同分隔符的TextInputFormat

hadoop - 应用逻辑后,regex模式在pyspark中不起作用

hadoop - CDH3 Vmware镜像中pig的源代码

hadoop - Hadoop MapReduce WordCount 如何将输入作为 <key, value> 对?