java - 原理是什么? Spark 何时处理大于内存容量的数据?

标签 java scala apache-spark

据我所知,Spark使用内存来缓存数据,然后在内存中计算数据。但是如果数据大于内存怎么办? 我可以阅读源代码,但我不知道哪个类(class)做调度工作? 或者您能解释一下Spark如何处理这个问题的原理吗?

最佳答案

om-nom-nom 给出了答案,但出于某种原因只是作为评论,所以我想我会把它作为实际答案发布:

https://spark.apache.org/docs/latest/scala-programming-guide.html#rdd-persistence

关于java - 原理是什么? Spark 何时处理大于内存容量的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23233794/

相关文章:

java - Selenium (Java) - Chrome Headless - 无法上传文件

Scala Spark 数据框保持前导零

java - Apache Spark isEmpty false 但集合为空

scala - SparkSQL : How to deal with null values in user defined function?

java - NetBeans 6.9 中的警告或信息框 : "x" is not a known variable in the current context

java - Spring Boot HTTP GET 自定义验证

c# - 如何从 Java 迁移到 C#?

Scala:关键字作为包名称

json - 如何为引用自身的案例类提供 JsonFormats?

apache-spark - 在读取 csv 时在 Spark-2.2.0 中使用双引号处理多行数据