python - 使用自定义语料库在 NLTK 中训练 NER 模型

标签 python nlp nltk named-entity-recognition

我有一个 conll2002 格式的注释语料库，即一个制表符分隔文件，带有标记、pos-tag 和 IOB 标记，后跟实体标记。示例:

John NNP B-PERSON

我想在 NLTK 中训练一个葡萄牙语 NER 模型，最好是 MaxEnt 模型。我不想想在 NLTK 中使用“内置”Stanford NER，因为我已经能够使用独立的 Stanford NER。我想使用 MaxEnt 模型来与斯坦福 NER 进行比较。

我找到了 NLTK-trainer但我无法使用它。

我怎样才能做到这一点？

最佳答案

nltk book 的第 6 章和第 7 章解释如何在 IOB 编码的语料库上训练“分 block 器”。第 7 章中的示例执行 NP 分 block ，但这是偶然的——您的分 block 器将根据您训练的任何内容进行分 block 。您需要确定哪些功能对命名实体识别有用；第 6 章介绍了为分类器选择特征的基础知识。最后，查看 nltk 自己使用的功能的来源 named entity chunker .他们的葡萄牙语也可能做得很好；然后您可以尝试添加词干提取或其他特定于葡萄牙语的功能。

关于python - 使用自定义语料库在 NLTK 中训练 NER 模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42706207/

上一篇：python - 如何移动 pandas DataFrame 中的多行？

下一篇：python - 如何使用 importlib.LazyLoader？

相关文章：

python - 如何将 open3d 几何点云输出为 .pcd 文件？

java - 使用 LanguageTool 检测无意义和/或语法错误的句子

Python NLTK 计算时态

python - 单词列表的词形还原

python - 什么是 ngram 计数以及如何使用 nltk 实现？

python - 在 django 模板中显示时间戳？

python 3 使用mysql响应除法

python - Keras CosineSimilarity - 正或负

r - 文档术语矩阵中的最大术语长度

python-3.x - Gensim doc2vecmost_similar相当于获取完整文档