nlp - 使用 Spacy en_core_web_lg 模型的 POS 标记不一致

标签 nlp spacy pos-tagger dependency-parsing

  • 使用 en_core_web_lg 模型时,PROPN 的 POS 标记无法正常工作

  • 使用 _md 模型进行词性标记的工作更加可预测。

鉴于(结构不良)句子: “CK7、CK-20、GATA 3、PSA 均为阴性。”

使用 _lg 模型时,“CK7”被标记为名词(NNS)。

使用 _md 模型时,“CK7”被标记为 PROPN(NNP)。 这是正确的。

使用_lg模型时,并将句子中的“CK7”替换为:

  • “CK1”标记为 PROPN

  • “CK2”标记为 PROPN

  • “CK3”、“CK4”标记为 PROPN

  • “CK5”标记为ADJ

  • “CK6”标记为 PROPN

  • “CK7”标记为名词

  • “CK8”标记为 PROPN

  • “CK9”标记为ADP

  • “CK22”、“CK222”,标记为 PROPN

当使用_md模型并如上所述替换“CK7”时,所有内容都被标记为PROPN,如预期

由于我要分析的大多数句子都结构不佳,我认为_lg模型的“更深”依存解析效果会更好,只是通过词性标记发现上述问题。

请提供以下建议:

  1. 使用 en_core_web_lg 模型时如何处理违反直觉的 POS 标记?
  2. 哪种模型最适合依存解析结构不良的句子?

非常感谢。

最佳答案

所以这不是对您问题的直接答案,但如果您正在处理生物医学数据,尝试这个包可能是有意义的: scispacy

它不会将 CK-7 标记为专有名词,但它可以将许多此类术语作为实体处理,请参阅支持不同标记集的各种其他 NER 模型。它仍在开发中,您可能仍然需要为您的数据添加特殊情况/异常(exception),但我认为您会看到比标准 spacy 模型更好、更一致的结果。

关于nlp - 使用 Spacy en_core_web_lg 模型的 POS 标记不一致,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55557300/

相关文章:

nltk pos_tag 用法

python - 在 GenSim 上计算未见文档的主题分布

python - 创建阿拉伯语语料库

machine-learning - 训练算法时处理稀疏矩阵和多个数值特征

python - NLTK:如何从 csv 文件创建语料库

Python Spacy 初学者 : similarities function

SpaCy 相似度得分没有意义

nlp - 如何找到 spaCy 模型的词汇量大小?

python - 什么是 Python 中最快速准确的词性标注器(具有商业许可证)?

python - 使用 NLTK 对德语文本进行 Pos 标记