apache-spark-sql - 如何使用 scala API 在 spark sql 中写入大于 1 的特定列的计数

标签 apache-spark-sql

我有以下 SQL 查询:

SELECT SECTOR, COUNT(REGION) FROM SAMPLE_TABLE GROUP BY SECTOR HAVING COUNT(REGION) > 1

我想使用 Spark SQL 的 DataFrame API 将其转换为 Spark。我该怎么做?

最佳答案

也许这可行:

val df = sqlContext.table("SAMPLE_TABLE")
val newDF = df
  .groupBy("sector")
  .agg(count("region").as("cnt"))
  .where($"cnt" > 1)

有关更多信息,您可以查看 DataFrame API docsfunctions package documentation

关于apache-spark-sql - 如何使用 scala API 在 spark sql 中写入大于 1 的特定列的计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37136030/

相关文章:

scala - 如何将 Scala Spark DataFrames 架构导出到 Json 文件?

java - 关于双值的 Spark SQL 求和函数问题

apache-spark - Hortonworks Hive Warehouse 连接器和模式更新

apache-spark - 在 PySpark 的文字列上检测到 INNER 连接的笛卡尔积

hive - 为什么 Spark SQL 使用来自 Hive 的 hive-site.xml 会失败并显示 "NumberFormatException: For input string: "1s""?

sql-server - 使用 spark sql 在 sqlserver 上执行查询

json - 合并不区分大小写的 json 列名称

python - 在Pyspark上模拟UDAF进行封装

java - 如何仅从kafka源中获取值到spark?

Scala - 使用 "endsWith"过滤数据帧