python - Pyspark RDD 的最大文件大小

我在工作中在 Pyspark shell 中练习 Pyspark(独立)，这对我来说很新。关于我机器上的最大文件大小和 RAM(或任何其他规范)是否有经验法则？使用集群时怎么样？

我正在练习的文件大约有 1200 行。但我很想知道在机器规范或集群规范方面，可以将多大的文件读入 RDD。

最佳答案

您可以处理的数据大小没有硬性限制，但是当您的 RDD(弹性分布式数据集)大小超过 RAM 的大小时，数据将被移动到磁盘。即使在数据被移动到磁盘之后，spark 也同样能够处理它。例如，如果您的数据是 12GB，可用内存是 8GB，spark 会将剩余数据分发到磁盘并无缝处理所有转换/操作。话虽如此，您可以适本地处理等于磁盘大小的数据。

单个 RDD 的大小当然有 2GB 的大小限制。换句话说，一个 block 的最大大小不会超过 2GB。

关于python - Pyspark RDD 的最大文件大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51939204/

上一篇：node.js - .htaccess 强制使用 SSL 并指向 NodeJS

下一篇：linux - Chef cron 作业未运行

相关文章：

apache-spark - Spark 读取 CSV - 不显示损坏的记录

scala - Spark中 double 值的精度

python - Apache Airflow - 使用 pymssql + SQLAlchemy 与 MS SQL Server 的连接问题

linux - conda 源停用 : bash: deactivate: No such file or directory

c - DECLARE_PER_CPU 变量存储在内核中的什么位置

python - 在 Pyspark 中如何添加列表中的所有值？

python - 具有多个分布的 seaborn distplot/displot

Python/argparse : How to make an argument (i. e. --clear) 不要警告我 "error: too few arguments"？

python - 类型错误 : <lambda>() missing 1 required positional argument: 'item'

php - 上传大文件时连接中止