join - 如何通过在hadoop中合并两个文件在hdfs中创建文件

我想在配置单元中结合两个表的列创建一个表。

所以我想通过包括两个文件的列在hdfs中创建一个文件。

file1: a  b  c are the 3 columns 

file2: x  y  z are the 3 columns 

i want to create a file3: a  b  c  x  y  z  that has 6 columns.

这该怎么做？

我尝试了许多命令，但是它将数据追加到列中，但是我希望两个文件中的所有列都存在于单个文件中。

谢谢。

最佳答案

我认为最简单的方法是将id列添加到两个表中(您需要一些列来进行联接)，然后在id列上联接表:

CREATE TABLE joined AS 
  SELECT first.id, first.a, first.b, first.c, second.x, second.y, second.z
    FROM first JOIN second ON (first.id = second.id)

关于join - 如何通过在hadoop中合并两个文件在hdfs中创建文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21044757/

上一篇：java - Hadoop map()函数未调用

下一篇：hadoop - cloudera manager无法停止或删除任何服务

相关文章：

mysql - 如何在 MySQL 中合并表，尽管不仅仅是彻底的合并？

sql - SQL Joining 3个表标记系统代码点火器

mysql - 加入时从原始表中删除重复条目

MYSQL:如何避免插入重复记录？

svn - 如何解决移动/重命名文件夹的非递归提交

hadoop - Eclipse Juno的Hadoop 1.2.1插件:我无法启动该应用程序

hadoop - 如何使用配置单元从文件中删除 ^A 和\N

hadoop - 如何为 LZMA2 编写 Hadoop 压缩/解压缩编解码器？

javascript - 难以理解和创建动态 JavaScript 对象

git - 我如何将 "move"从 "no branch"提交到实际分支？