apache-spark - (Py)Spark 框架中数据框的数据可视化

标签 apache-spark pyspark data-visualization spark-dataframe

关于 Spark DataFrames 方法可视化的问题。

至于现在(我使用 v. 2.0.0)，Spark DataFrames 还没有任何可视化功能(还)。通常的解决方案是将 DataFrame 的一些样本收集到驱动程序中，将其加载到例如 Pandas DataFrame 中，并使用其可视化功能。

我的问题是:我如何知道最大程度地利用驱动程序内存的最佳采样大小是多少，以便可视化数据？或者，解决此问题的最佳做法是什么？

谢谢!

最佳答案

我不认为这会回答你的问题，但希望它能为其他人或你提供一些视角。

我通常在 spark 上聚合，然后使用 Pandas 进行可视化(但不要将其存储到变量中)。在示例(简化)中，我会计算每天的活跃用户数，然后仅通过 Pandas 收集和可视化这个计数(如果可能，我会尽量避免将数据保存到变量中):

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)

关于apache-spark - (Py)Spark 框架中数据框的数据可视化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41954931/

上一篇：angularjs - 在回调事件中触发摘要循环

下一篇：jakarta-ee - 为什么我需要在 glassfish 4 上使用 sun-jaxws.xml 文件？

apache-spark - 将类型安全配置 conf 文件传递给 DataProcSparkOperator

apache-spark - 使用 PySpark 直接 Kafka Stream (Apache Spark 1.6)

scala - 有没有办法使用scala过滤 Spark 数据框中不包含某些内容的字段？

python - Pyspark 显示最大值(S)和多重排序

r - 如何在 ggplot2 中自动突出显示 x 轴的多个部分？

python - 如何在 PySpark 中将数据框列从 String 类型更改为 Double 类型？

apache-spark - Spark SQL - 处理列名中的双引号

javascript - 具有一致比例的圆形包装矩阵

javascript - 使用 JavaScript 图形可视化数据 - 动态