apache-spark-sql - 如何使用 scala API 在 spark sql 中写入大于 1 的特定列的计数

标签 apache-spark-sql

我有以下 SQL 查询:

SELECT SECTOR, COUNT(REGION) FROM SAMPLE_TABLE GROUP BY SECTOR HAVING COUNT(REGION) > 1

我想使用 Spark SQL 的 DataFrame API 将其转换为 Spark。我该怎么做？

最佳答案

也许这可行:

val df = sqlContext.table("SAMPLE_TABLE")
val newDF = df
  .groupBy("sector")
  .agg(count("region").as("cnt"))
  .where($"cnt" > 1)

有关更多信息，您可以查看 DataFrame API docs和 functions package documentation

关于apache-spark-sql - 如何使用 scala API 在 spark sql 中写入大于 1 的特定列的计数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37136030/

上一篇：pdf - 如何根据原始页面方向将 PDF 作为附录包含到 latex 文档中？

下一篇：pelican - 如何使用 Pelican 向文章添加重定向？

相关文章：

scala - 如何将 Scala Spark DataFrames 架构导出到 Json 文件？

java - 关于双值的 Spark SQL 求和函数问题

apache-spark - Hortonworks Hive Warehouse 连接器和模式更新

apache-spark - 在 PySpark 的文字列上检测到 INNER 连接的笛卡尔积

hive - 为什么 Spark SQL 使用来自 Hive 的 hive-site.xml 会失败并显示 "NumberFormatException: For input string: "1s""？

sql-server - 使用 spark sql 在 sqlserver 上执行查询

json - 合并不区分大小写的 json 列名称

python - 在Pyspark上模拟UDAF进行封装

java - 如何仅从kafka源中获取值到spark？

Scala - 使用 "endsWith"过滤数据帧

©2024 IT工具网联系我们