apache-spark - Apache Spark 警告 "Calling spill() on RowBasedKeyValueBatch"的含义

标签 apache-spark pyspark warnings

我正在使用 Apache Spark 本地模式运行 pyspark 2.2.0 作业并看到以下警告:

WARN RowBasedKeyValueBatch: Calling spill() on RowBasedKeyValueBatch. Will not spill but return 0.

出现此警告的原因可能是什么?这是我应该关心的事情还是我可以安全地忽略它?

最佳答案

如所示 here此警告意味着您的 RAM 已满,并且该部分 RAM 内容已移至磁盘。

另见 Spark FAQ

我的数据是否需要适合内存才能使用 Spark?

不可以。如果数据不适合内存,Spark 的操作符会将数据溢出到磁盘,使其能够在任何大小的数据上运行良好。同样,不适合内存的缓存数据集要么溢出到磁盘,要么在需要时即时重新计算,这取决于 RDD 的存储级别。

关于apache-spark - Apache Spark 警告 "Calling spill() on RowBasedKeyValueBatch"的含义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46907447/

相关文章:

scala - 使用 spark-shell 安装包 Graphframes

java - 使用 wasb blob 存储的 Spark 历史服务器无法启动

apache-spark - 从spark写入elasticsearch非常慢

scala - 如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

apache-spark - 如何使用 Spark/PySpark 删除雪花目标表

python - Pyspark 将多个 csv 文件读入数据框(或 RDD?)

python - 使用 pytest 测试 Spark - 无法在本地模式下运行 Spark

android - 禁用 Lint 警告 "The view name suggests this is a number but it does not include a numeric inputType"

c++ - 使用 gcc 4.1.2 抑制代码块的警告?

python - 警告模块在 Python 2.7 中不起作用?