nlp - 使用 Spacy en_core_web_lg 模型的 POS 标记不一致

鉴于(结构不良)句子: “CK7、CK-20、GATA 3、PSA 均为阴性。”

使用 _lg 模型时，“CK7”被标记为名词(NNS)。

使用 _md 模型时，“CK7”被标记为 PROPN(NNP)。 这是正确的。

使用_lg模型时，并将句子中的“CK7”替换为:

当使用_md模型并如上所述替换“CK7”时，所有内容都被标记为PROPN，如预期。

由于我要分析的大多数句子都结构不佳，我认为_lg模型的“更深”依存解析效果会更好，只是通过词性标记发现上述问题。

请提供以下建议:

非常感谢。

最佳答案

所以这不是对您问题的直接答案，但如果您正在处理生物医学数据，尝试这个包可能是有意义的: scispacy

它不会将 CK-7 标记为专有名词，但它可以将许多此类术语作为实体处理，请参阅支持不同标记集的各种其他 NER 模型。它仍在开发中，您可能仍然需要为您的数据添加特殊情况/异常(exception)，但我认为您会看到比标准 spacy 模型更好、更一致的结果。

关于nlp - 使用 Spacy en_core_web_lg 模型的 POS 标记不一致，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55557300/