我正在开发一种用于医学文本的半自动注释工具,但我完全无法找到用于注释的 RDF 三元组。
我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP,它们都没有提取疾病名称的模型。
我的问题是:
* 如何创建一个新的 NER 模型来提取疾病名称?我可以从 OpenNLP 或斯坦福 NER 那里得到任何帮助吗?
* 除了 NLP 之外,还有另一种方法可以从文本中提取 RDF 三元组吗?
任何帮助,将不胜感激!谢谢。
最佳答案
我用 OpenNLP 和 LingPipe 做了一些类似于你需要的东西。
我发现 LingPipe 基于字典的确切分块对于我的用例来说足够好并使用了它。此处提供的文档:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
你可以在这里找到一个小演示:
如果地名词典/字典方法对您来说不够好,您可以尝试创建自己的模型,OpenNLP 也有用于训练模型的 API。文档在这里:http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training
从自然语言中提取 RDF 三元组与识别命名实体是一个不同的问题。 NER 是一个相关且可能是必要的步骤,但还不够。要从自然语言中提取 RDF 语句,不仅需要识别诸如语句的主语和宾语等实体。但是您还需要识别这些实体的动词和/或关系,并且您还需要将它们映射到 URI。
关于annotations - 半自动标注工具——如何查找RDF Triplets,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10367815/