machine-learning - 增加训练示例会降低最大熵分类器的准确性

标签 machine-learning nlp text-classification

我正在使用 MaxEnt 词性标注器对语言语料库进行 pos 标签分类。我从理论上知道,增加训练样本通常会提高分类准确性。但是,我观察到,在我的情况下,如果我采用 3/4 的数据进行训练并其余进行测试,标记器会给出最大 f 测量值。如果我将训练数据大小增加到整个语料库的 85 或 90℅,那么准确性就会降低。即使将训练数据大小减少到完整语料库的 50℅,准确性也会下降。

我想知道随着训练示例的增加而导致准确性下降的可能原因。

最佳答案

我怀疑在减少的测试集中,您选择了极端样本并将更多一般样本添加到训练集中,然后减少了模型知道的测试样本的数量。

关于machine-learning - 增加训练示例会降低最大熵分类器的准确性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40391080/

相关文章:

matlab - MATLAB 中具有固定中心的最佳拟合圆

Python,机器学习: Are there any API that can split dataset and shuffle?

python - 如何识别字符串是否是人名?

python - sklearn模型数据转换错误: CountVectorizer - Vocabulary wasn't fitted

python - 如何在训练过程中纠正不稳定的损失和准确率? (二元分类)

python - 收到的标签值 1 超出 [0, 1) 的有效范围 - Python,Keras

java - StanleyNLP - TokensRegexNERAnnotator.readEntries 处的 ArrayIndexOutOfBoundsException(TokensRegexNERAnnotator.java :696))

python - 在 scikit learn 中设置字数上限

r - 你能推荐一个 R 中的包,它可以用于计算多类分类任务的精度、召回率和 F1-score

machine-learning - Keras嵌入层: keep zero-padded values as zeros