java - 从 treebank 标签转换为 Java 中的 wordnet 兼容标签?

标签 java nlp

我有来自 OpenNLP 的 POS 标记输入...我需要将这些与 WordNet 一起使用...但 wordnet 仅使用 4 个标签 - 名词、动词、形容词、副词...其中 OpenNLP 根据 Penn treebank tagset 生成标签.我需要将它们转换为与 wordnet 兼容的标签...我确实找到了 this 在网站上 - 但它都是 python..我需要 java

同意我可以自己编写一个简单的函数来重命名这些标签..但是如何处理其他标签,如 DT、PP、PDT、POS、MD 等...

最佳答案

有关您想对 WordNet 关联执行的操作的更多信息可能会有所帮助,但我的第一个猜测是您想要丢弃未完全映射到 WordNet 类别的词性。

例如,考虑 DT(限定符)。您是否希望从 WordNet 中获得“the”和“an”之间的关系?同样,对于 PP(介词),WordNet 中可能存在有用的关系,但我怀疑您更有可能在不同名词或动词之间找到有用的关系,而不是在封闭类单词之间找到有用的关系。

我的建议是首先将每个 TreeBank 词性标记映射到一个 WordNet 类,或者为那些没有明显映射的词性标记“空”(您可能在某处找到这样的映射,但只有 36 个标签,你自己做起来可能同样容易)。

对于封闭类词,您可能决定使用其他关系元数据源,但这可能取决于您应用程序的最终目标。

关于java - 从 treebank 标签转换为 Java 中的 wordnet 兼容标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5707856/

相关文章:

python - pytorch cnn模型在loss.backward()处停止而没有任何提示?

python - 使用 ELMo 嵌入段落

java - WildFly 10.0.0 Final正在接受请求,但将其放入队列中而不进行处理

java - Android Mediaplayer Streaming - 现在工作但没有

java - Arrays.sort( myarray) 物理上改变了数组?

NLP法律文本?

python - Python如何识别句子中单词的正确定义?

java - 在 java 中执行 sql 查询时避免 ORA-00904 - 无效标识符错误,因为该列可能会也可能不会在数据库中预设

Java 跳过第三个 case 语句

java - 使用 JWNL 获取与 WordNet 中的动词相关的所有名词