machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn)

标签 machine-learning scikit-learn naivebayes

每当我开始拥有更多的类(1000 或更多)时，MultinominalNB 就会变得非常慢并且需要 GB 的 RAM。对于所有支持 .partial_fit()(SGDClassifier、Perceptron)的 scikit learn 分类算法也是如此。使用卷积神经网络时，10000 个类别没有问题。但是当我想在相同的数据上训练 MultinominalNB 时，我的 12GB RAM 不够用，而且速度非常慢。根据我对朴素贝叶斯的理解，即使有很多类，它也应该快很多。这可能是 scikit-learn 实现的问题(可能是 .partial_fit() 函数的问题)？如何在 10000 多个类上训练 MultinominalNB/SGDClassifier/Perceptron(批量)？

最佳答案

简短回答，没有太多信息:

MultinomialNB 将独立模型拟合到每个类，因此，如果您有 C=10000+它适合的类(class) C=10000+模型，因此，只有模型参数将为 [n_classes x n_features] ，如果 n_features 则内存相当大很大。
scikits-learn 的 SGDClassifier 使用 OVA(一对一)策略来训练多类模型(因为 SGDC 本质上不是多类)，因此，另一个 C=10000+模型需要经过训练。
Perceptron，来自 scikits-learn 的文档:

Perceptron and SGDClassifier share the same underlying implementation. In fact, Perceptron() is equivalent to SGDClassifier(loss=”perceptron”, eta0=1, learning_rate=”constant”, penalty=None).

因此，您提到的所有 3 个分类器都不能很好地处理大量类别，因为需要为每个类别训练一个独立的模型。我建议您尝试一些本质上支持多类分类的方法，例如 RandomForestClassifier .

关于machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34659367/

上一篇：machine-learning - 基于手指弯曲对手部姿势进行分类的合适 ML 算法

下一篇：java - java中的广义线性混合效应模型

相关文章：

matlab - 使用反向传播算法进行字符识别测试

machine-learning - 无法在 pylearn2 上编译 cuda_convnet 错误

python - 使用 scipy 的 gaussian_kde 和 sklearn 的 KernelDensity 进行核密度估计会导致不同的结果

python - 我怎样才能让 GradientBoostingRegressor 与 scikit-learn 中的 BaseEstimator 一起工作？

python-2.7 - 使用保存的分类器/模型时出现“idf vector is not fitted”错误

java - Weka 分类器准确度

python - 多项式朴素贝叶斯参数 alpha 设置？ scikit学习

python - Keras 的 CategoricalCrossEntropy 到底在做什么？

machine-learning - 在 Spark : MatrixFactorizationModel. scala “recommendProductsForUsers” 函数中需要很长时间才能完成

python - scikit-learn 和 caret GBM 结果之间的差异？