谁能给我更准确的描述这个 Spark 参数以及它如何影响程序执行?我无法从文档中确切地说出这个参数在“幕后”做了什么。
最佳答案
该参数会影响 Python 工作线程的内存限制。如果 Python 工作进程的 RSS 大于内存限制,那么它会将数据从内存溢出到磁盘,这会降低内存利用率,但通常是一个昂贵的操作。
请注意,此值适用于每个 Python 工作器,并且每个执行器将有多个工作器。
如果您想深入了解,请查看 Spark 源代码树中的 python/pyspark 目录,例如ExternalMerger
实现:https://github.com/apache/spark/blob/41afa16500e682475eaa80e31c0434b7ab66abcb/python/pyspark/shuffle.py#L280
关于apache-spark - spark.python.worker.memory 是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31565497/