据我了解,我认为 PCA 只能针对连续特征执行。但是,在尝试了解 onehot 编码和标签编码之间的区别时,通过以下链接中的帖子:
When to use One Hot Encoding vs LabelEncoder vs DictVectorizor?
它指出,一个热编码后跟 PCA 是一种非常好的方法,这基本上意味着 PCA 应用于分类特征。 因此感到困惑,请同样建议我。
最佳答案
我不同意其他人。
虽然您可以在二进制数据上使用 PCA(例如一次性编码数据),但这并不意味着它是一件好事,或者它会很好地工作。
PCA 是为连续 变量设计的。它试图最小化方差(=平方偏差)。当你有二元变量时,平方偏差的概念就失效了。
是的,您可以使用 PCA。是的,你得到一个输出。它甚至是最小二乘输出:PCA 不会对此类数据进行段错误。它有效,但它的意义远没有你想要的那么好;并且据说比例如更有意义频繁模式挖掘。
关于python - PCA 用于分类特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40795141/