parsing - 哪个解析器最适合[生物医学]关系提取?

标签 parsing nlp information-extraction

我已经阅读了关于继续解析器和依赖解析器的内容。但很困惑这可能是最好的选择。

我的任务是从英文维基百科文本中提取关系(稍后也可能包含其他来源)。我需要的是两个有趣的实体之间的语义路径(只有最重要的信息)。例如,

表格文字:
“在美国,众所周知,糖尿病是一种常见病。”

我需要以下信息:
“糖尿病就是疾病”

您建议使用哪种解析器实现?斯坦福?麦芽解析器?或其他?

任何线索表示赞赏。

最佳答案

您是说句法解析器还是依赖解析器? online Stanford Parser向您展示这些解析有何不同。

句法解析

(ROOT
  (S
    (PP (IN In)
      (NP (NNP America)))
    (, ,)
    (NP (NNP diabetes))
    (VP (VBZ is) (, ,)
      (PP (IN as)
        (NP (NN everybody) (NNS knows)))
      (, ,)
      (NP (DT a) (JJ common) (NN disease)))))

依赖解析(折叠)
prep_in(disease-13, America-2)
nsubj(disease-13, diabetes-4)
cop(disease-13, is-5)
nn(knows-9, everybody-8)
prep_as(disease-13, knows-9)
det(disease-13, a-11)
amod(disease-13, common-12)
root(ROOT-0, disease-13)

它们实际上并没有什么不同(有关更多详细信息,请参阅 Collins 的论文或 Nieve 的书),但我发现依赖解析更容易使用。如您所见,您与糖尿病 -> 疾病有直接关系。然后您可以附加连接词。

关于parsing - 哪个解析器最适合[生物医学]关系提取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11116508/

相关文章:

c++ - 术语 "attribute"在解析器的上下文中意味着什么?

php - 解析 WordPress 帖子内容

python - 检测Python中属于哪些字母字符

nlp - 从社交文件中提取用户兴趣

nlp - 维基距离 : distance between Wiki topics and categories?

Kotlin:将由括号分隔的对列表解析为 Pairs() 列表

nlp - Allennlp 配置错误 : key "matrix_attention" is required at location "model."

python - 基于 Spacy token 的匹配, token 之间的 token 数量为 'n'

java - Java 媒体信息提取器

perl - 帮助从许多小文本文件中解析出数值