python - 使用 scikit-learn PCA.score() 时出错

标签 python machine-learning scikit-learn pca

我正在使用 sklearn 库中的 PCA(主成分分析)。我正在使用的训练集具有以下形状:X_train: (124, 13),y_train: (124, )。测试集具有以下形状:X_test: (54, 13),y_test: (54, )

这就是我进行PCA的方式:

from sklearn.decomposition import PCA

pca = PCA(0.75) #75 % variance retained
X_train_pca = pca.fit_transform(X_train_std)
X_test_pca = pca.transform(X_test_std)

print  X_train_pca.shape, X_test_pca.shape, y_train.shape, y_test.shape

>>> (124, 5), (54, 5), (124,), (54,)

为了测试主成分分析结果的好坏,我首先使用逻辑回归。

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr = lr.fit(X_train_pca, y_train)

并且,我使用 LogisticRegression 中的 score 来查找转换的功效以及使用测试数据集的拟合的平均准确度:

print lr.score(X_test_pca, y_test)
>>> 0.9814814814814815

但是,当我使用 PCA (sklearn) 中的 score 时,我遇到了错误:

print pca.score(X_test_pca, y=None)

---------------------------------------------------------------------------
ValueError                                
Traceback (most recent call last)
<ipython-input-217-540210963ed0> in <module>()
----> 3 print pca.score(X_test_pca, y=None)

/Users/username/.local/lib/python2.7/site-packages/sklearn/decomposition/pca.pyc in score(self, X, y)
    529             Average log-likelihood of the samples under the current model
    530         """
--> 531         return np.mean(self.score_samples(X))
    532 
    533 

/Users/username/.local/lib/python2.7/site-packages/sklearn/decomposition/pca.pyc in score_samples(self, X)
    503 
    504         X = check_array(X)
--> 505         Xr = X - self.mean_
    506         n_features = X.shape[1]
    507         log_like = np.zeros(X.shape[0])

ValueError: operands could not be broadcast together with shapes (54,5) (13,) 

我做错了什么?如何在 X_test(和 y_test)中测试 PCA 结果的优劣性?

最佳答案

对于PCA.score(),您需要使用原始测试数据。当前您正在将 X_test_pca 发送到其中,它已经被它转换了。

对于任何 scikit-learn 方法中的 score() 函数,您将需要在 fit() 函数中使用的数据类型。不是转换后的输出。 PCA会在score()方法中自动转换原始数据,然后计算对数似然。

更改此:

pca.score(X_test_pca, y=None)

对此:

pca.score(X_test_std, y=None)

关于python - 使用 scikit-learn PCA.score() 时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53493364/

相关文章:

python - 如何打印两个句子之间的所有内容?

python - 仅在恢复模型时输出中出现 TensorFlow NaN

python - Sklearn错误: 'SVR' object has no attribute '_impl'

python - 将元组列表混合并迭代到文本模板中

python - 如何使用XMLRPC备份数据库?

java - 神经网络输入顺序,重要吗?

machine-learning - 为 sklearn 算法选择 random_state

python - 如何绘制 K 均值并打印集群外的点

python - 环境处理完成后是否可以删除每个 Tox virtualenv

ruby - 是否有迭代编写新程序的程序?