hadoop - 在将文件提供给HDFS之前如何对其进行串联？

标签 hadoop mapreduce hdfs bigdata hadoop-streaming

我有三个文件，每个文件都有第一列作为每个事务的序列号。我要做的就是串联这些文件，但是在串联之前我需要更改其他文件中的序列号，但是问题是文件太大，无法编写程序来通过更改序列号来串联这些文件。连接后，我想将此数据输入到Hadoop集群中。任何帮助都会很棒。提前致谢。

最佳答案

使用MapReduce更改序列号名称，并使用一个reducer将所有输出到同一文件。但是，您将了解一些如何识别不同的文件。

关于hadoop - 在将文件提供给HDFS之前如何对其进行串联？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21548626/

上一篇：hadoop - Hadoop Map步骤返回大数据集

下一篇：scala - SparkContext textFile的InputPath语法

相关文章：

log4j - 如何配置 hadoop mapreduce 以便我的 mapreduce 类的日志可以输出到文件？

deployment - 对于 NetSuite Map/Reduce 脚本 - 为什么从 ReSTLet 调用时映射阶段失败？

hadoop - 如何使用PIG将数据从本地系统加载到hdfs

file - Hadoop DFS放置创建_COPYING_暂存文件

sql-server - Spark - jdbc 写入在 Yarn 集群模式下失败但在 spark-shell 中工作

csv - 无法将HDFS中的.csv数据加载到Hadoop中的Hive表中

hadoop - 我如何使用 sqoop 从 HDFS 导入并在导入时合并表的两列？

hadoop - HIVE - ORC 读取 NULL 十进制值问题 - java.io.EOFException : Reading BigInteger past EOF

hadoop - 在 Hadoop 中，我在哪里可以更改 namenode 和 jobtracker 网页的默认 url 端口 50070 和 50030

apache-spark - 如何将Spark流数据存储到Hortonworks中的Hdfs？

©2024 IT工具网联系我们