apache-spark - partitionColumn、lowerBound、upperBound、numPartitions参数是什么意思?

标签 apache-spark jdbc apache-spark-sql

在 Spark 中通过 JDBC 连接从 SQL Server 获取数据时,我发现我可以设置一些并行化参数,例如 partitionColumn , lowerBound , upperBound , 和 numPartitions .我经历过spark documentation但无法理解。

谁能解释一下这些参数的含义?

最佳答案

实际上上面的列表遗漏了一些东西,特别是第一个和最后一个查询。

没有它们,您会丢失一些数据( lowerBound 之前的数据和 upperBound 之后的数据)。从示例中看不清楚,因为下限为 0。

完整列表应该是:

SELECT * FROM table WHERE partitionColumn < 100

SELECT * FROM table WHERE partitionColumn BETWEEN 0 AND 100  
SELECT * FROM table WHERE partitionColumn BETWEEN 100 AND 200  

...
SELECT * FROM table WHERE partitionColumn > 9000

关于apache-spark - partitionColumn、lowerBound、upperBound、numPartitions参数是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41085238/

相关文章:

apache-spark - SparkR 2.0分类: how to get performance matrices?

scala - 过滤器和scala spark sql中的where之间的区别

performance - Spark 流吞吐量监控

apache-spark - Spark JDBC fetchsize 选项

hadoop - 带有序列文件的 Spark RDD take()

java - 错误使用 JDBC 连接池

java - 如果不存在则创建一个新数据库

scala - 使用ReduceByKey 对值列表进行分组

python - 通过 Python 使用 Spark 准备我的大数据

scala - Spark/Scala、数据集和案例类的多态性