我有来自 OpenNLP 的 POS 标记输入...我需要将这些与 WordNet 一起使用...但 wordnet 仅使用 4 个标签 - 名词、动词、形容词、副词...其中 OpenNLP 根据 Penn treebank tagset 生成标签.我需要将它们转换为与 wordnet 兼容的标签...我确实找到了 this 在网站上 - 但它都是 python..我需要 java
同意我可以自己编写一个简单的函数来重命名这些标签..但是如何处理其他标签,如 DT、PP、PDT、POS、MD 等...
最佳答案
有关您想对 WordNet 关联执行的操作的更多信息可能会有所帮助,但我的第一个猜测是您想要丢弃未完全映射到 WordNet 类别的词性。
例如,考虑 DT(限定符)。您是否希望从 WordNet 中获得“the”和“an”之间的关系?同样,对于 PP(介词),WordNet 中可能存在有用的关系,但我怀疑您更有可能在不同名词或动词之间找到有用的关系,而不是在封闭类单词之间找到有用的关系。
我的建议是首先将每个 TreeBank 词性标记映射到一个 WordNet 类,或者为那些没有明显映射的词性标记“空”(您可能在某处找到这样的映射,但只有 36 个标签,你自己做起来可能同样容易)。
对于封闭类词,您可能决定使用其他关系元数据源,但这可能取决于您应用程序的最终目标。
关于java - 从 treebank 标签转换为 Java 中的 wordnet 兼容标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5707856/