apache-spark - 当数据量远大于Cluster可用内存时，Spark如何进行内存计算

标签 apache-spark

<分区>

我对内存计算的 spark 工作机制有点困惑。如果 spark 在内存中进行处理，当它有 16 GB 的内存存储时，它如何计算 100 TB 的数据

最佳答案

Spark 将处理适合机器资源和计算能力的数据 block 。这项工作将分成几个迭代，在此期间，spark 会将数据加载到内存中，对其进行处理，并在必要时将结果写回磁盘以处理下一个数据 block 。

关于apache-spark - 当数据量远大于Cluster可用内存时，Spark如何进行内存计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54959785/

上一篇：upload - 新的谷歌网站 - 如何上传 PDF

下一篇：python - Databricks - 在 Python 中创建函数 (UDF)

相关文章：

python - 如何使用 Python 在 Spark 中执行两个 RDD 表的基本连接？

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame

apache-spark - 添加 UUID 以触发数据集

apache-spark - 在 foreachRDD 中执行 rdd.count() 是否将结果返回给 Driver 或 Executor？

scala - Dataframe groupBy，根据聚合函数的结果得到相应的行值

apache-spark - PySpark 连接 ID，然后连接 'date' 列中的年份和月份

dataframe - 从 Spark 中的数据框列值中删除空格

hadoop - 加入 RDD 中的特定行

java - 使用 Kerberos 设置 Spark SQL 连接

mongodb - 如何使用 spark 将 scala 列表持久化到 mongodb

©2024 IT工具网联系我们