apache-spark - spark.python.worker.memory 是什么?

标签 apache-spark pyspark

谁能给我更准确的描述这个 Spark 参数以及它如何影响程序执行?我无法从文档中确切地说出这个参数在“幕后”做了什么。

最佳答案

该参数会影响 Python 工作线程的内存限制。如果 Python 工作进程的 RSS 大于内存限制,那么它会将数据从内存溢出到磁盘,这会降低内存利用率,但通常是一个昂贵的操作。

请注意,此值适用于每个 Python 工作器,并且每个执行器将有多个工作器。

如果您想深入了解,请查看 Spark 源代码树中的 python/pyspark 目录,例如ExternalMerger实现:https://github.com/apache/spark/blob/41afa16500e682475eaa80e31c0434b7ab66abcb/python/pyspark/shuffle.py#L280

关于apache-spark - spark.python.worker.memory 是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31565497/

相关文章:

python - 如何使用pyspark将bz2文件读入数据帧?

apache-spark - ALS 模型 - 预测的 full_u * v^t * v 评分非常高

apache-spark - 将具有 UTC 偏移量的字符串转换为 Spark 时间戳

apache-spark - pyspark 中的全局计数器

python - 将 pyspark 数据框的列转换为小写

scala - Spark :How to use join method?

java - 在具有不同字段名称的 Java 类上映射 Avro 文件

apache-spark - Spark ML 和 MLLIB 包有什么区别

python - 在工作节点上安装 SPARK 模块

pip - pip install pyspark 后运行 pyspark