apache-spark - 如何使用 pyspark 计算 apache spark 数据框的大小?

标签 apache-spark pyspark spark-dataframe

有没有办法使用 pyspark 计算 Apache spark 数据帧的大小(以字节为单位)?

最佳答案

为什么不只缓存 df,然后查看存储下的 spark UI 并将单位转换为字节

df.cache()

关于apache-spark - 如何使用 pyspark 计算 apache spark 数据框的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38180140/

相关文章:

apache-spark - 如何从 HDFS 中的数据创建 EXTERNAL Spark 表

hadoop - 如何在 RDD [(String, Int)] 上保存 AsTextFile 时删除记录周围的括号?

apache-spark - 将组计数列添加到 PySpark 数据帧

scala - 使用 Spark 并行缓存和查询数据集

python - PySpark 2.4.5 : IllegalArgumentException when using PandasUDF

json - 从 Hive 表中的 json 字符串中提取值

apache-spark - 与 RDD 和 DataFrame 不同的浮点精度

python - Spark 中的分组线性回归

java - 如何解决 AnalysisException : resolved attribute(s) in Spark

apache-spark - 禁用 Spark 催化剂优化器