我正在使用 MaxEnt 词性标注器对语言语料库进行 pos 标签分类。我从理论上知道,增加训练样本通常会提高分类准确性。但是,我观察到,在我的情况下,如果我采用 3/4 的数据进行训练并其余进行测试,标记器会给出最大 f 测量值。如果我将训练数据大小增加到整个语料库的 85 或 90℅,那么准确性就会降低。即使将训练数据大小减少到完整语料库的 50℅,准确性也会下降。
我想知道随着训练示例的增加而导致准确性下降的可能原因。
最佳答案
我怀疑在减少的测试集中,您选择了极端样本并将更多一般样本添加到训练集中,然后减少了模型知道的测试样本的数量。
关于machine-learning - 增加训练示例会降低最大熵分类器的准确性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40391080/