apache-spark - Apache Spark 警告 "Calling spill() on RowBasedKeyValueBatch"的含义

我正在使用 Apache Spark 本地模式运行 pyspark 2.2.0 作业并看到以下警告:

WARN RowBasedKeyValueBatch: Calling spill() on RowBasedKeyValueBatch. Will not spill but return 0.

出现此警告的原因可能是什么？这是我应该关心的事情还是我可以安全地忽略它？

最佳答案

如所示 here此警告意味着您的 RAM 已满，并且该部分 RAM 内容已移至磁盘。

另见 Spark FAQ

我的数据是否需要适合内存才能使用 Spark？

不可以。如果数据不适合内存，Spark 的操作符会将数据溢出到磁盘，使其能够在任何大小的数据上运行良好。同样，不适合内存的缓存数据集要么溢出到磁盘，要么在需要时即时重新计算，这取决于 RDD 的存储级别。

关于apache-spark - Apache Spark 警告 "Calling spill() on RowBasedKeyValueBatch"的含义，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46907447/

上一篇：scala - 为什么 dataset.count 会导致洗牌! ( Spark 2.2)

下一篇：ruby-on-rails - Rails 5.1 API - 如何允许嵌套 JSON 对象的属性的参数

相关文章：

scala - 使用 spark-shell 安装包 Graphframes

java - 使用 wasb blob 存储的 Spark 历史服务器无法启动

apache-spark - 从spark写入elasticsearch非常慢

scala - 如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列？

apache-spark - 如何使用 Spark/PySpark 删除雪花目标表

python - Pyspark 将多个 csv 文件读入数据框(或 RDD？)

python - 使用 pytest 测试 Spark - 无法在本地模式下运行 Spark

android - 禁用 Lint 警告 "The view name suggests this is a number but it does not include a numeric inputType"

c++ - 使用 gcc 4.1.2 抑制代码块的警告？

python - 警告模块在 Python 2.7 中不起作用？