python - PCA 用于分类特征?

标签 python machine-learning scikit-learn data-mining

据我了解,我认为 PCA 只能针对连续特征执行。但是,在尝试了解 onehot 编码和标签编码之间的区别时,通过以下链接中的帖子:

When to use One Hot Encoding vs LabelEncoder vs DictVectorizor?

它指出,一个热编码后跟 PCA 是一种非常好的方法,这基本上意味着 PCA 应用于分类特征。 因此感到困惑,请同样建议我。

最佳答案

我不同意其他人。

虽然您可以在二进制数据上使用 PCA(例如一次性编码数据),但这并不意味着它是一件好事,或者它会很好地工作。

PCA 是为连续 变量设计的。它试图最小化方差(=平方偏差)。当你有二元变量时,平方偏差的概念就失效了。

是的,您可以使用 PCA。是的,你得到一个输出。它甚至是最小二乘输出:PCA 不会对此类数据进行段错误。它有效,但它的意义远没有你想要的那么好;并且据说比例如更有意义频繁模式挖掘。

关于python - PCA 用于分类特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40795141/

相关文章:

python - 在 Python 鼠标模块中使用回调(检索事件类型)

python - 需要 Scrapy 登录 vBulletin 指导

python - 如何在我的服务器上运行 python 脚本?

machine-learning - Caffe "top"Accuracy"` 层的第二个 `"

python - 在 Keras 中训练多元回归模型时损失值非常大

machine-learning - 不同 epsilon 值对 Q-learning 和 SARSA 的影响

tensorflow - 如何使用 tensorflow 服务为pytorch或sklearn模型提供服务

python - 如何在 sklearn 中重新拟合最佳分类器

python - 在列表字典上使用 TfidfVectorizer

Python-机器学习