sql - 斯卡拉 : Spark sqlContext query

标签 sql hadoop apache-spark apache-spark-sql parquet

我的文件中只有 3 个事件(第 3 列)01、02、03。

模式是 unixTimestamp|id|eventType|date1|date2|date3

639393604950|1001|01|2015-05-12 10:00:18|||
639393604950|1002|01|2015-05-12 10:04:18|||
639393604950|1003|01|2015-05-12 10:05:18|||
639393604950|1001|02||2015-05-12 10:40:18||
639393604950|1001|03|||2015-05-12 19:30:18|
639393604950|1002|02|2015-05-12 10:04:18|||

在sqlContext中,如何按ID合并数据?我期待 id 1001 的这个:

639393604950|1001|01|2015-05-12 10:00:18|2015-05-12 10:40:18|2015-05-12 19:30:18|

这是我需要调整的查询:

val events = sqlContext.sql("SELECT id, max(date1), max(date2), max(date3) " +
  "FROM parquetFile group by id, date1, date2, date3")
events.collect().foreach(println)

最佳答案

SELECT id, max(date1), max(date2), max(date3) FROM parquetFile group by id

关于sql - 斯卡拉 : Spark sqlContext query,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30364240/

相关文章:

javascript - 对线程对话进行排序

hadoop - 数据节点运行但未检测到

hadoop - Phoenix-Spark API是否具有像HBase API这样的checkAndPut方法?

python - Spark 上下文文本文件 : load multiple files

hadoop - 如何从fsimage查找文件名和文件大小?

hadoop - Spark程序在群集上运行非常慢

SQL Server 2008 运行大型查询 - 内存不足

mysql - SQL 按月 DESC 和年 ASC 排序

mysql - 子查询比连接运行得更快?

仅使用一个映射器的 Hadoop gzip 输入文件