<分区>
我对内存计算的 spark 工作机制有点困惑。 如果 spark 在内存中进行处理, 当它有 16 GB 的内存存储时,它如何计算 100 TB 的数据
标签 apache-spark
<分区>
我对内存计算的 spark 工作机制有点困惑。 如果 spark 在内存中进行处理, 当它有 16 GB 的内存存储时,它如何计算 100 TB 的数据
最佳答案
Spark 将处理适合机器资源和计算能力的数据 block 。这项工作将分成几个迭代,在此期间,spark 会将数据加载到内存中,对其进行处理,并在必要时将结果写回磁盘以处理下一个数据 block 。
关于apache-spark - 当数据量远大于Cluster可用内存时,Spark如何进行内存计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54959785/
相关文章:
python - 如何使用 Python 在 Spark 中执行两个 RDD 表的基本连接?
hadoop - 如何从 sequenceFile 创建一个 spark DataFrame
apache-spark - 在 foreachRDD 中执行 rdd.count() 是否将结果返回给 Driver 或 Executor?
scala - Dataframe groupBy,根据聚合函数的结果得到相应的行值
apache-spark - PySpark 连接 ID,然后连接 'date' 列中的年份和月份
dataframe - 从 Spark 中的数据框列值中删除空格