使用 en_core_web_lg 模型时,PROPN 的 POS 标记无法正常工作。
使用 _md 模型进行词性标记的工作更加可预测。
鉴于(结构不良)句子: “CK7、CK-20、GATA 3、PSA 均为阴性。”
使用 _lg 模型时,“CK7”被标记为名词(NNS)。
使用 _md 模型时,“CK7”被标记为 PROPN(NNP)。 这是正确的。
使用_lg模型时,并将句子中的“CK7”替换为:
“CK1”标记为 PROPN
“CK2”标记为 PROPN
“CK3”、“CK4”标记为 PROPN
“CK5”标记为ADJ
“CK6”标记为 PROPN
“CK7”标记为名词
“CK8”标记为 PROPN
“CK9”标记为ADP
“CK22”、“CK222”,标记为 PROPN
当使用_md模型并如上所述替换“CK7”时,所有内容都被标记为PROPN,如预期。
由于我要分析的大多数句子都结构不佳,我认为_lg模型的“更深”依存解析效果会更好,只是通过词性标记发现上述问题。
请提供以下建议:
- 使用 en_core_web_lg 模型时如何处理违反直觉的 POS 标记?
- 哪种模型最适合依存解析结构不良的句子?
非常感谢。
最佳答案
所以这不是对您问题的直接答案,但如果您正在处理生物医学数据,尝试这个包可能是有意义的: scispacy
它不会将 CK-7 标记为专有名词,但它可以将许多此类术语作为实体处理,请参阅支持不同标记集的各种其他 NER 模型。它仍在开发中,您可能仍然需要为您的数据添加特殊情况/异常(exception),但我认为您会看到比标准 spacy 模型更好、更一致的结果。
关于nlp - 使用 Spacy en_core_web_lg 模型的 POS 标记不一致,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55557300/