annotations - 半自动标注工具——如何查找RDF Triplets

标签 annotations rdf named-entity-recognition named-entity-extraction

我正在开发一种用于医学文本的半自动注释工具，但我完全无法找到用于注释的 RDF 三元组。

我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP，它们都没有提取疾病名称的模型。

我的问题是:
* 如何创建一个新的 NER 模型来提取疾病名称？我可以从 OpenNLP 或斯坦福 NER 那里得到任何帮助吗？
* 除了 NLP 之外，还有另一种方法可以从文本中提取 RDF 三元组吗？

任何帮助，将不胜感激!谢谢。

最佳答案

我用 OpenNLP 和 LingPipe 做了一些类似于你需要的东西。
我发现 LingPipe 基于字典的确切分块对于我的用例来说足够好并使用了它。此处提供的文档:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

你可以在这里找到一个小演示:

https://github.com/castagna/nerdf

如果地名词典/字典方法对您来说不够好，您可以尝试创建自己的模型，OpenNLP 也有用于训练模型的 API。文档在这里:http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

从自然语言中提取 RDF 三元组与识别命名实体是一个不同的问题。 NER 是一个相关且可能是必要的步骤，但还不够。要从自然语言中提取 RDF 语句，不仅需要识别诸如语句的主语和宾语等实体。但是您还需要识别这些实体的动词和/或关系，并且您还需要将它们映射到 URI。

关于annotations - 半自动标注工具——如何查找RDF Triplets，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10367815/

上一篇：performance - TF 包装器 : Performance of Keras vs Tensorpack

下一篇：playframework - play framework 2.0 - 如何启用 CRUD 模块

rdf - 在构建语义 Web 应用程序时，OWL 是如何实际使用的？

python - spacy 3 更新后，NLP 更新无法与元组一起使用

python - 词性标记和实体识别 - python

nlp - 实体抽取库

java - 如何确保在开始返回 bean 之前将资源注入(inject)到我的配置中？

spring - 为什么 BeanDefinition.getPropertyValues 返回一个空列表

javascript - 向 Google 烛台图表添加注释(发布的解决方案触发 TypeError)

java - openrdf 芝麻 : Is it possible to parse single lines?

java - Apache Jena RDFWriter.setProperty 无效