join - 如何通过在hadoop中合并两个文件在hdfs中创建文件

标签 join hadoop merge hive hdfs

我想在配置单元中结合两个表的列创建一个表。

所以我想通过包括两个文件的列在hdfs中创建一个文件。

file1: a  b  c are the 3 columns 

file2: x  y  z are the 3 columns 

i want to create a file3: a  b  c  x  y  z  that has 6 columns. 

这该怎么做 ?

我尝试了许多命令,但是它将数据追加到列中,但是我希望两个文件中的所有列都存在于单个文件中。

谢谢。

最佳答案

我认为最简单的方法是将id列添加到两个表中(您需要一些列来进行联接),然后在id列上联接表:

CREATE TABLE joined AS 
  SELECT first.id, first.a, first.b, first.c, second.x, second.y, second.z
    FROM first JOIN second ON (first.id = second.id)

关于join - 如何通过在hadoop中合并两个文件在hdfs中创建文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21044757/

相关文章:

mysql - 如何在 MySQL 中合并表,尽管不仅仅是彻底的合并?

sql - SQL Joining 3个表标记系统代码点火器

mysql - 加入时从原始表中删除重复条目

MYSQL:如何避免插入重复记录?

svn - 如何解决移动/重命名文件夹的非递归提交

hadoop - Eclipse Juno的Hadoop 1.2.1插件:我无法启动该应用程序

hadoop - 如何使用配置单元从文件中删除 ^A 和\N

hadoop - 如何为 LZMA2 编写 Hadoop 压缩/解压缩编解码器?

javascript - 难以理解和创建动态 JavaScript 对象

git - 我如何将 "move"从 "no branch"提交到实际分支?