nlp - 斯坦福 NER 小写实体

标签 nlp stanford-nlp named-entity-recognition

我在检测以小写字母开头的命名实体时遇到问题。如果我只用小写单词训练模型,那么准确率是合理的;但是,当模型使用完全大写的标记或什至是小写和大写混合训练时,结果非常糟糕。我尝试了斯坦福 NLP 小组提供的一些功能 Class NERFeatureFactory以及各种各样的句子,但我无法得到我预期的结果。
我面临的问题的一个例子如下:

“阿里在密歇根大学学习,现在他为我们海军工作。”

我希望模型能够识别实体如下:

  • “大学”:“设施”,
  • “密歇根州”:“设施”,
  • “阿里”:“人”
  • “我们”:“组织”
  • “海军”:“组织”

  • 如果用作训练数据的 .TSV 文件只包含小写字母,那么我可以得到上述结果,否则结果令人惊讶。

    任何帮助都受到高度赞赏。

    最佳答案

    如果您有小写文本或混合大小写文本,由于斯坦福 NLP 模型是在标准编辑数据上训练的,因此准确性可能会受到影响,但有几种有用的方法可以解决这个问题:

  • 一种方法是使用 true case annotator 正确地将文本大写,然后使用常规 NER 模型处理结果文本。
  • 另一种方法是探索无 shell 模型,包括作为斯坦福 NER 一部分可用的模型。

  • 您可以阅读更多 here .

    关于nlp - 斯坦福 NER 小写实体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42760602/

    相关文章:

    python - Transformers 库中 Pegasus 模型的单词/句子的最大输入长度

    machine-learning - 使用 Huggingface 的蒸馏器模型生成文本

    nlp - 如何使用带有 nltk 的斯坦福 Open IE

    nlp - 从 "word salad"区分格式正确的英语句子

    java - Stanford Parser - 使用德语模型 jar

    python - Spacy NER实体位置

    java - 从非结构化文本离线生成 RDF

    数据框作为 torchtext 中的数据源

    emacs M-e 在 tex 模式下无法正常工作