我有三个文件,每个文件都有第一列作为每个事务的序列号。我要做的就是串联这些文件,但是在串联之前我需要更改其他文件中的序列号,但是问题是文件太大,无法编写程序来通过更改序列号来串联这些文件。连接后,我想将此数据输入到Hadoop集群中。任何帮助都会很棒。提前致谢。
最佳答案
使用MapReduce更改序列号名称,并使用一个reducer将所有输出到同一文件。但是,您将了解一些如何识别不同的文件。
关于hadoop - 在将文件提供给HDFS之前如何对其进行串联?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21548626/