我有一个 conll2002 格式的注释语料库,即一个制表符分隔文件,带有标记、pos-tag 和 IOB 标记,后跟实体标记。示例:
John NNP B-PERSON
我想在 NLTK 中训练一个葡萄牙语 NER 模型,最好是 MaxEnt 模型。我不想想在 NLTK 中使用“内置”Stanford NER,因为我已经能够使用独立的 Stanford NER。我想使用 MaxEnt 模型来与斯坦福 NER 进行比较。
我找到了 NLTK-trainer但我无法使用它。
我怎样才能做到这一点?
最佳答案
nltk book 的第 6 章和第 7 章解释如何在 IOB 编码的语料库上训练“分 block 器”。第 7 章中的示例执行 NP 分 block ,但这是偶然的——您的分 block 器将根据您训练的任何内容进行分 block 。您需要确定哪些功能对命名实体识别有用;第 6 章介绍了为分类器选择特征的基础知识。最后,查看 nltk 自己使用的功能的来源 named entity chunker .他们的葡萄牙语也可能做得很好;然后您可以尝试添加词干提取或其他特定于葡萄牙语的功能。
关于python - 使用自定义语料库在 NLTK 中训练 NER 模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42706207/