ggplot2 - 使用pyspark+databricks时如何绘制相关热图

标签 ggplot2 pyspark heatmap correlation databricks

我正在databricks中研究pyspark。我想生成相关热图。假设这是我的数据:

myGraph=spark.createDataFrame([(1.3,2.1,3.0),
                               (2.5,4.6,3.1),
                               (6.5,7.2,10.0)],
                              ['col1','col2','col3'])

这是我的代码:

import pyspark
from pyspark.sql import SparkSession
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from ggplot import *
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.stat import Correlation
from pyspark.mllib.stat import Statistics

myGraph=spark.createDataFrame([(1.3,2.1,3.0),
                               (2.5,4.6,3.1),
                               (6.5,7.2,10.0)],
                              ['col1','col2','col3'])
vector_col = "corr_features"
assembler = VectorAssembler(inputCols=['col1','col2','col3'], 
                            outputCol=vector_col)
myGraph_vector = assembler.transform(myGraph).select(vector_col)
matrix = Correlation.corr(myGraph_vector, vector_col)
matrix.collect()[0]["pearson({})".format(vector_col)].values

到这里,我就可以得到相关矩阵了。结果如下:

enter image description here

现在我的问题是:

  1. 如何将矩阵转换为数据框?我已经尝试过How to convert DenseMatrix to spark DataFrame in pyspark?的方法和 How to get correlation matrix values pyspark 。但这对我不起作用。
  2. 如何生成如下所示的相关热图:

enter image description here

因为我刚刚学习了pyspark和databricks。 ggplot 或 matplotlib 都可以解决我的问题。

最佳答案

我认为您感到困惑的地方是:

matrix.collect()[0]["pearson({})".format(vector_col)].values

调用密集矩阵的 .values 会为您提供所有值的列表,但您实际上正在寻找的是表示相关矩阵的列表的列表。

import matplotlib.pyplot as plt
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.stat import Correlation

columns = ['col1','col2','col3']

myGraph=spark.createDataFrame([(1.3,2.1,3.0),
                               (2.5,4.6,3.1),
                               (6.5,7.2,10.0)],
                              columns)
vector_col = "corr_features"
assembler = VectorAssembler(inputCols=['col1','col2','col3'], 
                            outputCol=vector_col)
myGraph_vector = assembler.transform(myGraph).select(vector_col)
matrix = Correlation.corr(myGraph_vector, vector_col)

到目前为止,这基本上是您的代码。您应该使用 .toArray().tolist() 来获取表示相关矩阵的列表,而不是调用 .values:

matrix = Correlation.corr(myGraph_vector, vector_col).collect()[0][0]
corrmatrix = matrix.toArray().tolist()
print(corrmatrix)

输出:

[[1.0, 0.9582184104641529, 0.9780872729407004], [0.9582184104641529, 1.0, 0.8776695567739841], [0.9780872729407004, 0.8776695567739841, 1.0]]

这种方法的优点是您可以轻松地将列表列表转换为数据框:

df = spark.createDataFrame(corrmatrix,columns)
df.show()

输出:

+------------------+------------------+------------------+ 
|              col1|              col2|              col3| 
+------------------+------------------+------------------+ 
|               1.0|0.9582184104641529|0.9780872729407004|
|0.9582184104641529|               1.0|0.8776695567739841| 
|0.9780872729407004|0.8776695567739841|               1.0|  
+------------------+------------------+------------------+

回答你的第二个问题。只是绘制热图的众多解决方案之一(例如 thisthis ,使用 seaborn 效果更好)。

def plot_corr_matrix(correlations,attr,fig_no):
    fig=plt.figure(fig_no)
    ax=fig.add_subplot(111)
    ax.set_title("Correlation Matrix for Specified Attributes")
    ax.set_xticklabels(['']+attr)
    ax.set_yticklabels(['']+attr)
    cax=ax.matshow(correlations,vmax=1,vmin=-1)
    fig.colorbar(cax)
    plt.show()

plot_corr_matrix(corrmatrix, columns, 234)

关于ggplot2 - 使用pyspark+databricks时如何绘制相关热图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55546467/

相关文章:

r - 在 R 中使用 ggplot2 的多行多错误条

r - 当 N 很小时,隐藏 geom_boxplot() 中的框和须线

apache-spark - Windows 上的 Pyspark : WARN Failed to load NativeSystemBLAS and NativeRefBLAS

apache-spark - 为什么在重新分区 Spark 数据帧时会得到这么多空分区?

python - Seaborn 错误?热图绘制不一致

R:等温线作为等值线使用 ggplot2

python - Zeppelin 和 Spark.pyspark 和 folium

svn - 代码存储库 checkin 的热图

r - 将参数传递给 heatmap.2 内的 add.expr 中的函数

r - ggplot : color, geom_point 中的填充和大小