据我所知,Spark使用内存来缓存数据,然后在内存中计算数据。但是如果数据大于内存怎么办? 我可以阅读源代码,但我不知道哪个类(class)做调度工作? 或者您能解释一下Spark如何处理这个问题的原理吗?
最佳答案
om-nom-nom 给出了答案,但出于某种原因只是作为评论,所以我想我会把它作为实际答案发布:
https://spark.apache.org/docs/latest/scala-programming-guide.html#rdd-persistence
关于java - 原理是什么? Spark 何时处理大于内存容量的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23233794/