我在集群模式下运行 spark 并通过 JDBC 从 RDBMS 读取数据。
根据 Spark docs ,这些分区参数描述了从多个工作线程并行读取时如何对表进行分区:
partitionColumn
lowerBound
upperBound
numPartitions
这些是可选参数。
如果我不指定这些会发生什么:
最佳答案
如果您没有指定 { partitionColumn
, lowerBound
, upperBound
, numPartitions
} 或 { predicates
Spark 将使用单个执行程序并创建单个非空分区。所有数据都将使用单个事务处理,读取既不会分布式也不会并行化。
也可以看看:
关于apache-spark - 通过 JDBC 从 RDBMS 读取时在 spark 中进行分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43150694/