python - Spark 中的 PCA 输出与 scikit-learn 不匹配

标签 python apache-spark pyspark pca apache-spark-ml

我正在 Spark ML 中尝试 PCA(主成分分析)。

data = [(Vectors.dense([1.0, 1.0]),),
  (Vectors.dense([1.0, 2.0]),),
  (Vectors.dense([4.0, 4.0]),), 
  (Vectors.dense([5.0, 4.0]),)]

df = spark.createDataFrame(data, ["features"])
pca = PCA(k=1, inputCol="features", outputCol="pcaFeatures")
model = pca.fit(df)
transformed_feature = model.transform(df)
transformed_feature.show()

输出:

+---------+--------------------+
| features|         pcaFeatures|
+---------+--------------------+
|[1.0,1.0]|[-1.3949716649258...|
|[1.0,2.0]|[-1.976209858644928]|
|[4.0,4.0]|[-5.579886659703326]|
|[5.0,4.0]|[-6.393620130910061]|
+---------+--------------------+

当我在 scikit-learn 中尝试对相同数据进行 PCA 时,如下所示,它给出了不同的结果

X = np.array([[1.0, 1.0], [1.0, 2.0], [4.0, 4.0], [5.0, 4.0]])
pca = PCA(n_components=1)
pca.fit(X)
X_transformed = pca.transform(X)
for x,y in zip(X ,X_transformed):
    print(x,y)

输出:

[ 1.  1.] [-2.44120041]
[ 1.  2.] [-1.85996222]
[ 4.  4.] [ 1.74371458]
[ 5.  4.] [ 2.55744805]

如您所见,输出有所不同。

为了验证结果,我用数学方法计算了相同数据的 PCA。我从 scikit-learn 得到了相同的结果。下面的片段是第一个数据点 (1.0,1.0) 的 pca 转换计算: enter image description here

如您所见,它与 scikit 学习结果相匹配。

似乎 spark ML 没有从数据向量 X 中减去平均向量 MX 即它使用 Y = A*(X) 代替 Y = A*(X-MX )

对于点 (1.0,1.0):

Y = (0.814*1.0)+(0.581*1.0)) = 1.395 

这与我们使用 spark ML 得到的结果相同。

是 Spark ML 给出了错误的结果还是我遗漏了什么?

最佳答案

在 Spark 中,PCA 转换不会自动为您缩放输入数据。在应用该方法之前,您需要自己处理。要规范化数据的平均值,可以按以下方式使用 StandardScaler:

scaler = StandardScaler(inputCol="features", outputCol="scaledFeatures",
                    withStd=False, withMean=True)
scaled_df = scaler.fit(df).transform(df)

PCA 方法可以像以前一样应用于 scaled_df,结果将与 scikit-learn 给出的结果相匹配。


我建议使用 Spark ML 管道来简化流程。要同时使用标准化和 PCA,它可能看起来像这样:

scaler = StandardScaler(inputCol="features", outputCol="scaledFeatures",
                    withStd=False, withMean=True)
pca = PCA(k=1, inputCol=scaler.getOutputCol(), outputCol="pcaFeatures")
pipeline = Pipeline(stages=[scaler , pca])

model = pipeline.fit(df)
transformed_feature = model.transform(df)

关于python - Spark 中的 PCA 输出与 scikit-learn 不匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47770674/

相关文章:

attributes - Pyspark 'PipelinedRDD' 对象没有属性 'show'

apache-spark - pyspark替换列值

python - 使用 h5py 创建大量数据集 - 无法注册数据类型原子(无法插入重复键)

python - 使用nose分别运行单元和集成测试(位于不同的目录中)

scala - Spark 示例无法编译

python - 在 python shell 中导入 pyspark

python - Spark Python 错误 "FileNotFoundError: [WinError 2] The system cannot find the file specified"

python - 为什么pygame窗口动画只在我移动光标时起作用

python - Python获取无效证书的证书信息

python - Spark 枢转一列,但保持其他列完好无损