apache-spark - 运行spark提交时出现内存不足错误

标签 apache-spark hadoop pyspark hive bigdata

我正在尝试将60gb表数据加载到spark python数据帧上，然后将其写入配置单元表中。

我已经设置了驱动程序内存，执行程序内存，最大结果大小足以处理数据。但是当我在命令行中提到所有上述配置时，我通过Spark Submit运行时遇到错误。

注意:通过spark python shell(通过在启动shell时指定驱动程序和执行程序内存)，我能够填充目标配置单元表。

有什么想法吗？？

最佳答案

尝试使用语法:
./spark-submit --conf ...
用于与内存相关的配置。我怀疑您正在做的是-在设置它们的同时初始化SparkSession-这变得无关紧要，因为那时内核已经启动。与您为运行Shell设置的参数相同。

https://spark.apache.org/docs/latest/submitting-applications.html

关于apache-spark - 运行spark提交时出现内存不足错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60804506/

上一篇：python - 我是否需要安装 Hadoop 才能使用 Pyspark 的所有功能？

下一篇：scala - intelliJ运行中的 Spark :无法解析符号和标识符，但找到了字符串，并找到了 ';'，但找到了 ')'

java - 无法在 Ubuntu 上启动 Hive

hadoop - 使用更大的硬盘驱动器将新磁盘添加到数据节点

apache-spark - 获取 Spark ML 多层感知器分类器的输出层神经元值

java - Hadoop 发出的 native snappy 压缩数据无法通过 java-snappy 版本提取

scala - 如何将 RDD[(String, String)] 转换为 RDD[Array[String]]？

hadoop - mapper类在hadoop mapreduce程序中是强制性的吗

python - 在 Spark 中广播用户定义的类

python - 检查数据框是否包含任何空值

java - pyspark:从 pyspark 调用自定义 java 函数。我需要 Java_Gateway 吗？