annotations - 半自动标注工具——如何查找RDF Triplets

标签 annotations rdf named-entity-recognition named-entity-extraction

我正在开发一种用于医学文本的半自动注释工具,但我完全无法找到用于注释的 RDF 三元组。

我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP,它们都没有提取疾病名称的模型。

我的问题是:
* 如何创建一个新的 NER 模型来提取疾病名称?我可以从 OpenNLP 或斯坦福 NER 那里得到任何帮助吗?
* 除了 NLP 之外,还有另一种方法可以从文本中提取 RDF 三元组吗?

任何帮助,将不胜感激!谢谢。

最佳答案

我用 OpenNLP 和 LingPipe 做了一些类似于你需要的东西。
我发现 LingPipe 基于字典的确切分块对于我的用例来说足够好并使用了它。此处提供的文档:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

你可以在这里找到一个小演示:

  • https://github.com/castagna/nerdf

  • 如果地名词典/字典方法对您来说不够好,您可以尝试创建自己的模型,OpenNLP 也有用于训练模型的 API。文档在这里:http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

    从自然语言中提取 RDF 三元组与识别命名实体是一个不同的问题。 NER 是一个相关且可能是必要的步骤,但还不够。要从自然语言中提取 RDF 语句,不仅需要识别诸如语句的主语和宾语等实体。但是您还需要识别这些实体的动词和/或关系,并且您还需要将它们映射到 URI。

    关于annotations - 半自动标注工具——如何查找RDF Triplets,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10367815/

    相关文章:

    java - 在不向域对象添加不必要的注释的情况下使用 Morphia 来持久化域对象的策略?

    rdf - 在构建语义 Web 应用程序时,OWL 是如何实际使用的?

    python - spacy 3 更新后,NLP 更新无法与元组一起使用

    python - 词性标记和实体识别 - python

    nlp - 实体抽取库

    java - 如何确保在开始返回 bean 之前将资源注入(inject)到我的配置中?

    spring - 为什么 BeanDefinition.getPropertyValues 返回一个空列表

    javascript - 向 Google 烛台图表添加注释(发布的解决方案触发 TypeError)

    java - openrdf 芝麻 : Is it possible to parse single lines?

    java - Apache Jena RDFWriter.setProperty 无效