SQL/Hive 计数不同的列

标签 sql hive

我如何在 Hive 中做到这一点?

    columnA       columnB    columnC
     100.10      50.60       30
     100.10      50.60       30
     100.10      50.60       20
     100.10      70.80       40

输出应该是:
  columnA   columnB    No_of_distinct_colC
  100.10    50.60       2
  100.10    70.80       1

我认为正确的查询:
SELECT columnA,columnB,COUNT(distinct column C)
from table_name
group by columnA,columnB

这样对吗? SQL也很好。

更新:如何找到 columnC 的标准偏差?尽快需要这个。

最佳答案

是的,这几乎是正确的。但是你有一个简单的错误。您的列名在 COUNT 中是错误的。

SELECT columnA,columnB,COUNT(DISTINCT columnC) No_of_distinct_colC
from table_name
group by columnA,columnB

关于SQL/Hive 计数不同的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18091965/

相关文章:

sql - 基于字段数据的行号

hadoop - Hive View 查询性能 : Union tables with different schemas

hadoop - 连接 Hive 动态分区表中的所有分区

sql - 带引号和不带引号的更新查询的总运行时间差异太大

php - 表 1 中的标志字段也适用于表 2

php - Silex 存储库 SQL 转义单引号问题

sql - Hadoop - 在具有可变列的 CSV 文件集合上公开 SQL 接口(interface)

php - MySQL 存储好友

hadoop - 在Windows上安装配置单元时出错

hadoop - 从非分区表创建分区表