python - 使用自定义语料库在 NLTK 中训练 NER 模型

标签 python nlp nltk named-entity-recognition

我有一个 conll2002 格式的注释语料库,即一个制表符分隔文件,带有标记、pos-tag 和 IOB 标记,后跟实体标记。示例:

John NNP B-PERSON

我想在 NLTK 中训练一个葡萄牙语 NER 模型,最好是 MaxEnt 模型。我不想想在 NLTK 中使用“内置”Stanford NER,因为我已经能够使用独立的 Stanford NER。我想使用 MaxEnt 模型来与斯坦福 NER 进行比较。

我找到了 NLTK-trainer但我无法使用它。

我怎样才能做到这一点?

最佳答案

nltk book 的第 6 章和第 7 章解释如何在 IOB 编码的语料库上训练“分 block 器”。第 7 章中的示例执行 NP 分 block ,但这是偶然的——您的分 block 器将根据您训​​练的任何内容进行分 block 。您需要确定哪些功能对命名实体识别有用;第 6 章介绍了为分类器选择特征的基础知识。最后,查看 nltk 自己使用的功能的来源 named entity chunker .他们的葡萄牙语也可能做得很好;然后您可以尝试添加词干提取或其他特定于葡萄牙语的功能。

关于python - 使用自定义语料库在 NLTK 中训练 NER 模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42706207/

相关文章:

python - 如何将 open3d 几何点云输出为 .pcd 文件?

java - 使用 LanguageTool 检测无意义和/或语法错误的句子

Python NLTK 计算时态

python - 单词列表的词形还原

python - 什么是 ngram 计数以及如何使用 nltk 实现?

python - 在 django 模板中显示时间戳?

python 3 使用mysql响应除法

python - Keras CosineSimilarity - 正或负

r - 文档术语矩阵中的最大术语长度

python-3.x - Gensim doc2vecmost_similar相当于获取完整文档