我正在尝试将60gb表数据加载到spark python数据帧上,然后将其写入配置单元表中。
我已经设置了驱动程序内存,执行程序内存,最大结果大小足以处理数据。但是当我在命令行中提到所有上述配置时,我通过Spark Submit运行时遇到错误。
注意:通过spark python shell(通过在启动shell时指定驱动程序和执行程序内存),我能够填充目标配置单元表。
有什么想法吗??
最佳答案
尝试使用语法:./spark-submit --conf ...
用于与内存相关的配置。我怀疑您正在做的是-在设置它们的同时初始化SparkSession
-这变得无关紧要,因为那时内核已经启动。与您为运行Shell设置的参数相同。
https://spark.apache.org/docs/latest/submitting-applications.html
关于apache-spark - 运行spark提交时出现内存不足错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60804506/