关于 Spark DataFrames 方法可视化的问题。
至于现在(我使用 v. 2.0.0),Spark DataFrames 还没有任何可视化功能(还)。通常的解决方案是将 DataFrame 的一些 样本 收集到驱动程序中,将其加载到例如 Pandas DataFrame 中,并使用其可视化功能。
我的问题是:我如何知道最大程度地利用驱动程序内存的最佳采样大小是多少,以便可视化数据?或者,解决此问题的最佳做法是什么?
谢谢!
最佳答案
我不认为这会回答你的问题,但希望它能为其他人或你提供一些视角。
我通常在 spark 上聚合,然后使用 Pandas 进行可视化(但不要将其存储到变量中)。在示例(简化)中,我会计算每天的活跃用户数,然后仅通过 Pandas 收集和可视化这个计数(如果可能,我会尽量避免将数据保存到变量中):
(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)
关于apache-spark - (Py)Spark 框架中数据框的数据可视化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41954931/