python - Pyspark 驱动程序中 Python 子进程的内存分配

标签 python apache-spark pyspark

在 PySpark 驱动程序中创建新的 Python 进程时(例如使用 JobLib 或其他多处理库),这些进程是否共享 Spark 驱动程序内存,还是在 PySpark 驱动程序 JVM 之外分配内存?

最佳答案

Python 驱动程序内存不计入 spark.driver.memory(对于工作线程而言,与 spark.executor.memory 相同)。 spark.*.memory 设置仅用于堆上 Java 内存分配。

所有其他形式的内存分配(堆外、 native 内存,例如 Python 等)都由 spark.driver.memoryOverhead 和等效设置涵盖。

关于python - Pyspark 驱动程序中 Python 子进程的内存分配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51457539/

相关文章:

python - 将日期和时间与列表中的日期时间元素分开

scala - 在 Spark Scala UDF 中定义返回值

python - 我需要在 python 中读取一个文本文件并将选定的值放入一个单独的数组中

apache-spark - 云环境中的 Spark 数据局部性

scala - 当条件与列一起使用时具有动态的数据框

python - 为 pyspark 设置 SparkContext

apache-spark - 从 S3 Bucket 读取文件到 PySpark Dataframe Boto3

python - 可重复使用的 AWS Glue 作业

Windows中的Python程序内存

python - h5py:将 numpy 数据转换为原生 python 类型