machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn)

标签 machine-learning scikit-learn naivebayes

每当我开始拥有更多的类(1000 或更多)时,MultinominalNB 就会变得非常慢并且需要 GB 的 RAM。对于所有支持 .partial_fit()(SGDClassifier、Perceptron)的 scikit learn 分类算法也是如此。 使用卷积神经网络时,10000 个类别没有问题。但是当我想在相同的数据上训练 MultinominalNB 时,我的 12GB RAM 不够用,而且速度非常慢。 根据我对朴素贝叶斯的理解,即使有很多类,它也应该快很多。 这可能是 scikit-learn 实现的问题(可能是 .partial_fit() 函数的问题)?如何在 10000 多个类上训练 MultinominalNB/SGDClassifier/Perceptron(批量)?

最佳答案

简短回答,没有太多信息:

  • MultinomialNB 将独立模型拟合到每个类,因此,如果您有 C=10000+它适合的类(class) C=10000+模型,因此,只有模型参数将为 [n_classes x n_features] ,如果 n_features 则内存相当大很大。

  • scikits-learn 的 SGDClassifier 使用 OVA(一对一)策略来训练多类模型(因为 SGDC 本质上不是多类),因此,另一个 C=10000+模型需要经过训练。

  • Perceptron,来自 scikits-learn 的文档:

Perceptron and SGDClassifier share the same underlying implementation. In fact, Perceptron() is equivalent to SGDClassifier(loss=”perceptron”, eta0=1, learning_rate=”constant”, penalty=None).

因此,您提到的所有 3 个分类器都不能很好地处理大量类别,因为需要为每个类别训练一个独立的模型。我建议您尝试一些本质上支持多类分类的方法,例如 RandomForestClassifier .

关于machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34659367/

相关文章:

matlab - 使用反向传播算法进行字符识别测试

machine-learning - 无法在 pylearn2 上编译 cuda_convnet 错误

python - 使用 scipy 的 gaussian_kde 和 sklearn 的 KernelDensity 进行核密度估计会导致不同的结果

python - 我怎样才能让 GradientBoostingRegressor 与 scikit-learn 中的 BaseEstimator 一起工作?

python-2.7 - 使用保存的分类器/模型时出现“idf vector is not fitted”错误

java - Weka 分类器准确度

python - 多项式朴素贝叶斯参数 alpha 设置? scikit学习

python - Keras 的 CategoricalCrossEntropy 到底在做什么?

machine-learning - 在 Spark : MatrixFactorizationModel. scala “recommendProductsForUsers” 函数中需要很长时间才能完成

python - scikit-learn 和 caret GBM 结果之间的差异?