apache-spark - partitionColumn、lowerBound、upperBound、numPartitions参数是什么意思？

标签 apache-spark jdbc apache-spark-sql

在 Spark 中通过 JDBC 连接从 SQL Server 获取数据时，我发现我可以设置一些并行化参数，例如 partitionColumn , lowerBound , upperBound , 和 numPartitions .我经历过spark documentation但无法理解。

谁能解释一下这些参数的含义？

最佳答案

实际上上面的列表遗漏了一些东西，特别是第一个和最后一个查询。

没有它们，您会丢失一些数据( lowerBound 之前的数据和 upperBound 之后的数据)。从示例中看不清楚，因为下限为 0。

完整列表应该是:

SELECT * FROM table WHERE partitionColumn < 100

SELECT * FROM table WHERE partitionColumn BETWEEN 0 AND 100  
SELECT * FROM table WHERE partitionColumn BETWEEN 100 AND 200

...

SELECT * FROM table WHERE partitionColumn > 9000

关于apache-spark - partitionColumn、lowerBound、upperBound、numPartitions参数是什么意思？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41085238/

上一篇：jsf - 如何在 JSF 数据表中显示行索引

下一篇：google-apps-script - 如何使用 Google App Script 检测移动用户？

scala - 过滤器和scala spark sql中的where之间的区别

performance - Spark 流吞吐量监控

apache-spark - Spark JDBC fetchsize 选项

hadoop - 带有序列文件的 Spark RDD take()

java - 错误使用 JDBC 连接池

java - 如果不存在则创建一个新数据库

scala - 使用ReduceByKey 对值列表进行分组

python - 通过 Python 使用 Spark 准备我的大数据

scala - Spark/Scala、数据集和案例类的多态性