apache-spark - (Py)Spark 框架中数据框的数据可视化

标签 apache-spark pyspark data-visualization spark-dataframe

关于 Spark DataFrames 方法可视化的问题。

至于现在(我使用 v. 2.0.0),Spark DataFrames 还没有任何可视化功能(还)。通常的解决方案是将 DataFrame 的一些 样本 收集到驱动程序中,将其加载到例如 Pandas DataFrame 中,并使用其可视化功能。

我的问题是:我如何知道最大程度地利用驱动程序内存的最佳采样大小是多少,以便可视化数据?或者,解决此问题的最佳做法是什么?

谢谢!

最佳答案

我不认为这会回答你的问题,但希望它能为其他人或你提供一些视角。

我通常在 spark 上聚合,然后使用 Pandas 进行可视化(但不要将其存储到变量中)。在示例(简化)中,我会计算每天的活跃用户数,然后仅通过 Pandas 收集和可视化这个计数(如果可能,我会尽量避免将数据保存到变量中):

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)

关于apache-spark - (Py)Spark 框架中数据框的数据可视化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41954931/

相关文章:

scala - 使用 databricks-connect 连接到 python 中的 databricks 时出错

apache-spark - 将类型安全配置 conf 文件传递​​给 DataProcSparkOperator

apache-spark - 使用 PySpark 直接 Kafka Stream (Apache Spark 1.6)

scala - 有没有办法使用scala过滤 Spark 数据框中不包含某些内容的字段?

python - Pyspark 显示最大值(S)和多重排序

r - 如何在 ggplot2 中自动突出显示 x 轴的多个部分?

python - 如何在 PySpark 中将数据框列从 String 类型更改为 Double 类型?

apache-spark - Spark SQL - 处理列名中的双引号

javascript - 具有一致比例的圆形包装矩阵

javascript - 使用 JavaScript 图形可视化数据 - 动态