hadoop - 从分区表复制 Hive

我有一个按年、月和日分区的原始表。例如:

col_1    col_2    col_3    YEAR    MONTH    DATE 
a        b        c        2017    03       25

我想创建一个新表，它是该表的子集，但仍保持原始表的分区。

像

这样简单的东西

CREATE new_table AS 
SELECT * 
FROM original_table 
WHERE (conditions);

但是，由于原始表太大，我必须通过分区遍历此查询。

我目前的解决方案是编写一个 shell 脚本，遍历所有分区并为每个分区运行单独的查询。

示例:

for year in '2016' '2017'
    do
    for month in '01' '02' ...
        do
        for day in '01' '02' ...
            do
            hive -e "INSERT INTO new_table SELECT * FROM original_table WHERE YEAR=$year AND MONTH=$month etc."
        done
    done
done

但这看起来非常迂回和低效。有没有办法直接在配置单元中将其作为一行来执行？

最佳答案

我最近不得不在几天的时间里做这样的事情，但它需要你复制原始表的架构，或者至少使用 CREATE TABLE LIKE

但是，最重要的是，您的插入语句需要指定分区

CREATE TABLE new_table (
    fields... 
)
PARTITIONED BY (year STRING, month STRING, day  STRING);

INSERT OVERWRITE TABLE new_table PARTITION(year, month, day) 
SELECT fields... , year, month, day -- partitions must be last
FROM original_table
WHERE 
year BETWEEN '2016' AND '2017';  -- add more, as necessary

您也可以使用 CTAS 函数，但使用分区表执行这些操作并不简单

关于hadoop - 从分区表复制 Hive，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48365816/

上一篇：hadoop - 如何使用当前时间戳作为 Hive 输出的文件名

下一篇：Apache Nutch 错误 : Injector: java. io.IOException:命令字符串中的(空)条目:空 chmod 0644

Hadoop、Mapreduce - 无法获取 locatedblock 的 block 长度

hadoop - 编写RCFile-多少个reducer？

hadoop - 如何让 mahout 与 hadoop HDFS 交互

hadoop - 是否可以从Scalding作业访问基础org.apache.hadoop.mapreduce.Job？

hadoop - Hive 解析和编辑数组以构造字段

hadoop - Hive错误:执行错误，从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1

hadoop - 如何将hbase表中的数据导入到hive表中？

hadoop - 如何根据 Hive 中的最高值合并输出

hadoop - Hive表/数据库设置在哪里？