我正在使用 Apache Spark 本地模式运行 pyspark 2.2.0 作业并看到以下警告:
WARN RowBasedKeyValueBatch: Calling spill() on RowBasedKeyValueBatch. Will not spill but return 0.
出现此警告的原因可能是什么?这是我应该关心的事情还是我可以安全地忽略它?
最佳答案
如所示 here此警告意味着您的 RAM 已满,并且该部分 RAM 内容已移至磁盘。
另见 Spark FAQ
我的数据是否需要适合内存才能使用 Spark?
不可以。如果数据不适合内存,Spark 的操作符会将数据溢出到磁盘,使其能够在任何大小的数据上运行良好。同样,不适合内存的缓存数据集要么溢出到磁盘,要么在需要时即时重新计算,这取决于 RDD 的存储级别。
关于apache-spark - Apache Spark 警告 "Calling spill() on RowBasedKeyValueBatch"的含义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46907447/