如何使用 Spark SQL 实现跳过/获取查询(典型的服务器端网格分页)。我已经在网上搜索过了,只能在这里找到非常基本的示例,例如: https://databricks-training.s3.amazonaws.com/data-exploration-using-spark-sql.html
我没有看到像 T-SQL 那样的 ROW_NUMBER() 或 OFFSET/FETCH 的任何概念。有谁知道如何做到这一点?
类似于:
scala > csc.sql("select * from users skip 10 limit 10").collect()
最佳答案
尝试这样的事情:
val rdd = csc.sql("select * from <keyspace>.<table>")
val rdd2 = rdd.view.zipWithIndex()
rdd2.filter(x => { x._2 > 5 && x._2 < 10;}).collect()
rdd2.filter(x => { x._2 > 9 && x._2 < 12;}).collect()
关于sql - 使用 Spark SQL 跳过/获取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30260134/