apache-spark - 当数据量远大于Cluster可用内存时,Spark如何进行内存计算

标签 apache-spark

<分区>

我对内存计算的 spark 工作机制有点困惑。 如果 spark 在内存中进行处理, 当它有 16 GB 的内存存储时,它如何计算 100 TB 的数据

最佳答案

Spark 将处理适合机器资源和计算能力的数据 block 。这项工作将分成几个迭代,在此期间,spark 会将数据加载到内存中,对其进行处理,并在必要时将结果写回磁盘以处理下一个数据 block 。

关于apache-spark - 当数据量远大于Cluster可用内存时,Spark如何进行内存计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54959785/

相关文章:

python - 如何使用 Python 在 Spark 中执行两个 RDD 表的基本连接?

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame

apache-spark - 添加 UUID 以触发数据集

apache-spark - 在 foreachRDD 中执行 rdd.count() 是否将结果返回给 Driver 或 Executor?

scala - Dataframe groupBy,根据聚合函数的结果得到相应的行值

apache-spark - PySpark 连接 ID,然后连接 'date' 列中的年份和月份

dataframe - 从 Spark 中的数据框列值中删除空格

hadoop - 加入 RDD 中的特定行

java - 使用 Kerberos 设置 Spark SQL 连接

mongodb - 如何使用 spark 将 scala 列表持久化到 mongodb