hadoop - 数组联合的聚合函数 [HIVE]

标签 hadoop hive

我想在 group by 子句上采用数组并集。 Hive 没有任何通用方法来聚合数组联合。 除了内置的 hive 函数,还有其他解决方案吗?

示例:

CREATE TABLE base_table
(
  day string,
  sample_data array<string>
)

SELECT day, ARRAY_UNION(sample_data) FROM
(
SELECT day, sample_data from base_table1
UNION ALL
SELECT day, sample_data from base_table2
)
GROUP BY day

最佳答案

你可以试试 collect_listcollect_set

SELECT day, COLLECT_LIST(sample_data) FROM
(
  SELECT day, sample_data from base_table1
    UNION ALL
  SELECT day, sample_data from base_table2
)
GROUP BY day

关于hadoop - 数组联合的聚合函数 [HIVE],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42852155/

相关文章:

sql - 从配置单元表或 unix 中删除垃圾字符

hadoop - 使用带有回车符的HIVE-Error在Hadoop中加载电子邮件数据

hadoop - 如何在满足特定条件时逐行迭代配置单元表并计算指标?

python - 我在使用 Hive 转换功能时遇到错误

相当于 LISTAGG 的 Hive

sql - Hadoop/Hive-基于CASE语句将列归为一-艰难的格式

hadoop - 自动化 H2O 流量 : run flow from CLI

hadoop - 运行配置单元查询,并收集作业信息

hadoop - oozie shell脚本在kerberos集群中执行beeline

amazon-s3 - s3 上的 Parquet hive table