apache-spark - spark.python.worker.memory 是什么？

谁能给我更准确的描述这个 Spark 参数以及它如何影响程序执行？我无法从文档中确切地说出这个参数在“幕后”做了什么。

最佳答案

该参数会影响 Python 工作线程的内存限制。如果 Python 工作进程的 RSS 大于内存限制，那么它会将数据从内存溢出到磁盘，这会降低内存利用率，但通常是一个昂贵的操作。

请注意，此值适用于每个 Python 工作器，并且每个执行器将有多个工作器。

如果您想深入了解，请查看 Spark 源代码树中的 python/pyspark 目录，例如ExternalMerger实现:https://github.com/apache/spark/blob/41afa16500e682475eaa80e31c0434b7ab66abcb/python/pyspark/shuffle.py#L280

关于apache-spark - spark.python.worker.memory 是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31565497/

上一篇：arabic - 相对于阿拉伯语文本，我的括号应该放在哪里？

下一篇：plone - 大脑属性和 ipdb 自动完成

相关文章：

python - 如何使用pyspark将bz2文件读入数据帧？

apache-spark - ALS 模型 - 预测的 full_u * v^t * v 评分非常高

apache-spark - 将具有 UTC 偏移量的字符串转换为 Spark 时间戳

apache-spark - pyspark 中的全局计数器

python - 将 pyspark 数据框的列转换为小写

scala - Spark :How to use join method?

java - 在具有不同字段名称的 Java 类上映射 Avro 文件

apache-spark - Spark ML 和 MLLIB 包有什么区别

python - 在工作节点上安装 SPARK 模块

pip - pip install pyspark 后运行 pyspark