nlp - 斯坦福 NER 小写实体

我在检测以小写字母开头的命名实体时遇到问题。如果我只用小写单词训练模型，那么准确率是合理的；但是，当模型使用完全大写的标记或什至是小写和大写混合训练时，结果非常糟糕。我尝试了斯坦福 NLP 小组提供的一些功能 Class NERFeatureFactory以及各种各样的句子，但我无法得到我预期的结果。
我面临的问题的一个例子如下:

“阿里在密歇根大学学习，现在他为我们海军工作。”

我希望模型能够识别实体如下:

“大学”:“设施”，

“密歇根州”:“设施”，

“阿里”:“人”

“我们”:“组织”

“海军”:“组织”

如果用作训练数据的 .TSV 文件只包含小写字母，那么我可以得到上述结果，否则结果令人惊讶。

任何帮助都受到高度赞赏。

最佳答案

如果您有小写文本或混合大小写文本，由于斯坦福 NLP 模型是在标准编辑数据上训练的，因此准确性可能会受到影响，但有几种有用的方法可以解决这个问题:

一种方法是使用 true case annotator 正确地将文本大写，然后使用常规 NER 模型处理结果文本。

另一种方法是探索无 shell 模型，包括作为斯坦福 NER 一部分可用的模型。

您可以阅读更多 here .

关于nlp - 斯坦福 NER 小写实体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42760602/

nlp - 斯坦福 NER 小写实体

上一篇：jasmine - AngularJS 测试错误 : Unknown provider: $_httpBackend_Provider <- $_httpBackend_

下一篇：ssms - F5 在 SSMS 中停止工作