java - 原理是什么？ Spark 何时处理大于内存容量的数据？

标签 java scala apache-spark

据我所知，Spark使用内存来缓存数据，然后在内存中计算数据。但是如果数据大于内存怎么办？我可以阅读源代码，但我不知道哪个类(class)做调度工作？或者您能解释一下Spark如何处理这个问题的原理吗？

最佳答案

om-nom-nom 给出了答案，但出于某种原因只是作为评论，所以我想我会把它作为实际答案发布:

https://spark.apache.org/docs/latest/scala-programming-guide.html#rdd-persistence

关于java - 原理是什么？ Spark 何时处理大于内存容量的数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23233794/

上一篇：java - Java VisualVM 是否提供正确的堆转储堆大小(.hprof 文件)

下一篇：Java 日志记录与 Log4J

相关文章：

java - Selenium (Java) - Chrome Headless - 无法上传文件

Scala Spark 数据框保持前导零

java - Apache Spark isEmpty false 但集合为空

scala - SparkSQL : How to deal with null values in user defined function?

java - NetBeans 6.9 中的警告或信息框 : "x" is not a known variable in the current context

java - Spring Boot HTTP GET 自定义验证

c# - 如何从 Java 迁移到 C#？

Scala:关键字作为包名称

json - 如何为引用自身的案例类提供 JsonFormats？

apache-spark - 在读取 csv 时在 Spark-2.2.0 中使用双引号处理多行数据

©2024 IT工具网联系我们