hadoop - 在将文件提供给HDFS之前如何对其进行串联?

标签 hadoop mapreduce hdfs bigdata hadoop-streaming

我有三个文件,每个文件都有第一列作为每个事务的序列号。我要做的就是串联这些文件,但是在串联之前我需要更改其他文件中的序列号,但是问题是文件太大,无法编写程序来通过更改序列号来串联这些文件。连接后,我想将此数据输入到Hadoop集群中。任何帮助都会很棒。提前致谢。

最佳答案

使用MapReduce更改序列号名称,并使用一个reducer将所有输出到同一文件。但是,您将了解一些如何识别不同的文件。

关于hadoop - 在将文件提供给HDFS之前如何对其进行串联?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21548626/

相关文章:

log4j - 如何配置 hadoop mapreduce 以便我的 mapreduce 类的日志可以输出到文件?

deployment - 对于 NetSuite Map/Reduce 脚本 - 为什么从 ReSTLet 调用时映射阶段失败?

hadoop - 如何使用PIG将数据从本地系统加载到hdfs

file - Hadoop DFS放置创建_COPYING_暂存文件

sql-server - Spark - jdbc 写入在 Yarn 集群模式下失败但在 spark-shell 中工作

csv - 无法将HDFS中的.csv数据加载到Hadoop中的Hive表中

hadoop - 我如何使用 sqoop 从 HDFS 导入并在导入时合并表的两列?

hadoop - HIVE - ORC 读取 NULL 十进制值问题 - java.io.EOFException : Reading BigInteger past EOF

hadoop - 在 Hadoop 中,我在哪里可以更改 namenode 和 jobtracker 网页的默认 url 端口 50070 和 50030

apache-spark - 如何将Spark流数据存储到Hortonworks中的Hdfs?