python - 使用 scikit-learn PCA.score() 时出错

我正在使用 sklearn 库中的 PCA(主成分分析)。我正在使用的训练集具有以下形状:X_train: (124, 13)，y_train: (124, )。测试集具有以下形状:X_test: (54, 13)，y_test: (54, )。

这就是我进行PCA的方式:

from sklearn.decomposition import PCA

pca = PCA(0.75) #75 % variance retained
X_train_pca = pca.fit_transform(X_train_std)
X_test_pca = pca.transform(X_test_std)

print  X_train_pca.shape, X_test_pca.shape, y_train.shape, y_test.shape

>>> (124, 5), (54, 5), (124,), (54,)

为了测试主成分分析结果的好坏，我首先使用逻辑回归。

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr = lr.fit(X_train_pca, y_train)

并且，我使用 LogisticRegression 中的 score 来查找转换的功效以及使用测试数据集的拟合的平均准确度:

print lr.score(X_test_pca, y_test)
>>> 0.9814814814814815

但是，当我使用 PCA (sklearn) 中的 score 时，我遇到了错误:

print pca.score(X_test_pca, y=None)

---------------------------------------------------------------------------
ValueError                                
Traceback (most recent call last)
<ipython-input-217-540210963ed0> in <module>()
----> 3 print pca.score(X_test_pca, y=None)

/Users/username/.local/lib/python2.7/site-packages/sklearn/decomposition/pca.pyc in score(self, X, y)
    529             Average log-likelihood of the samples under the current model
    530         """
--> 531         return np.mean(self.score_samples(X))
    532 
    533 

/Users/username/.local/lib/python2.7/site-packages/sklearn/decomposition/pca.pyc in score_samples(self, X)
    503 
    504         X = check_array(X)
--> 505         Xr = X - self.mean_
    506         n_features = X.shape[1]
    507         log_like = np.zeros(X.shape[0])

ValueError: operands could not be broadcast together with shapes (54,5) (13,)

我做错了什么？如何在 X_test(和 y_test)中测试 PCA 结果的优劣性？

最佳答案

对于PCA.score()，您需要使用原始测试数据。当前您正在将 X_test_pca 发送到其中，它已经被它转换了。

对于任何 scikit-learn 方法中的 score() 函数，您将需要在 fit() 函数中使用的数据类型。不是转换后的输出。 PCA会在score()方法中自动转换原始数据，然后计算对数似然。

更改此:

pca.score(X_test_pca, y=None)

对此:

pca.score(X_test_std, y=None)

关于python - 使用 scikit-learn PCA.score() 时出错，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53493364/

python - 使用 scikit-learn PCA.score() 时出错

上一篇：excel - 在 Excel 中编写 ANN : VBA Type Mismatch Error

下一篇：python - 如何在 Keras 中将标量连接到一维向量？