machine-learning - 增加训练示例会降低最大熵分类器的准确性

标签 machine-learning nlp text-classification

我正在使用 MaxEnt 词性标注器对语言语料库进行 pos 标签分类。我从理论上知道，增加训练样本通常会提高分类准确性。但是，我观察到，在我的情况下，如果我采用 3/4 的数据进行训练并其余进行测试，标记器会给出最大 f 测量值。如果我将训练数据大小增加到整个语料库的 85 或 90℅，那么准确性就会降低。即使将训练数据大小减少到完整语料库的 50℅，准确性也会下降。

我想知道随着训练示例的增加而导致准确性下降的可能原因。

最佳答案

我怀疑在减少的测试集中，您选择了极端样本并将更多一般样本添加到训练集中，然后减少了模型知道的测试样本的数量。

关于machine-learning - 增加训练示例会降低最大熵分类器的准确性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40391080/

上一篇：function - 如何在spark/scala中重新调整移动中心的数字范围？

下一篇：r - XGBoost 是否区分 R 中稀疏矩阵中的缺失值和 0？

相关文章：

matlab - MATLAB 中具有固定中心的最佳拟合圆

Python，机器学习: Are there any API that can split dataset and shuffle?

python - 如何识别字符串是否是人名？

python - sklearn模型数据转换错误: CountVectorizer - Vocabulary wasn't fitted

python - 如何在训练过程中纠正不稳定的损失和准确率？ (二元分类)

python - 收到的标签值 1 超出 [0, 1) 的有效范围 - Python，Keras

java - StanleyNLP - TokensRegexNERAnnotator.readEntries 处的 ArrayIndexOutOfBoundsException(TokensRegexNERAnnotator.java :696))

python - 在 scikit learn 中设置字数上限

machine-learning - Keras嵌入层: keep zero-padded values as zeros