每当我开始拥有更多的类(1000 或更多)时,MultinominalNB 就会变得非常慢并且需要 GB 的 RAM。对于所有支持 .partial_fit()(SGDClassifier、Perceptron)的 scikit learn 分类算法也是如此。 使用卷积神经网络时,10000 个类别没有问题。但是当我想在相同的数据上训练 MultinominalNB 时,我的 12GB RAM 不够用,而且速度非常慢。 根据我对朴素贝叶斯的理解,即使有很多类,它也应该快很多。 这可能是 scikit-learn 实现的问题(可能是 .partial_fit() 函数的问题)?如何在 10000 多个类上训练 MultinominalNB/SGDClassifier/Perceptron(批量)?
最佳答案
简短回答,没有太多信息:
MultinomialNB 将独立模型拟合到每个类,因此,如果您有
C=10000+
它适合的类(class)C=10000+
模型,因此,只有模型参数将为[n_classes x n_features]
,如果n_features
则内存相当大很大。scikits-learn 的 SGDClassifier 使用 OVA(一对一)策略来训练多类模型(因为 SGDC 本质上不是多类),因此,另一个
C=10000+
模型需要经过训练。Perceptron,来自 scikits-learn 的文档:
Perceptron and SGDClassifier share the same underlying implementation. In fact, Perceptron() is equivalent to SGDClassifier(loss=”perceptron”, eta0=1, learning_rate=”constant”, penalty=None).
因此,您提到的所有 3 个分类器都不能很好地处理大量类别,因为需要为每个类别训练一个独立的模型。我建议您尝试一些本质上支持多类分类的方法,例如 RandomForestClassifier .
关于machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34659367/