java - synset 中的 wordnet 词组

标签 java nlp wordnet

我们如何在同义词集中找到单词短语?特别是,将此同义词集用于形容词“booked”:

booked, engaged, set-aside -- (reserved in advance)

我用的是RitaWN Java包(WordNet版本是2.1),好像找不到词组。在上面的例子中,当我运行

RiWordnet wordnet = new RiWordnet(null);
String[] syn = wordnet.getSynset(word, "a", true);
for(int i = 0; i < syn.length; i++)
            System.out.println(syn[i]);

它只输出

booked engaged

虽然没有列出“预留”。

我测试了很多,所有的短语都没有找到。另一个例子:

commodity, trade good, good -- (articles of commerce)

然后“贸易商品”不会从 getSynset() 方法返回。那么我们如何才能真正获得短语呢?

(ritawn包取自http://rednoise.org/rita/wordnet/documentation/index.htm)

最佳答案

RiTaWN 似乎默认忽略“复合词”。您可以禁用此功能以获取完整的短语列表(下面的第 2 行)。

RiWordnet wordnet = new RiWordnet();
wordnet.ignoreCompoundWords(false);
String[] syn = wordnet.getSynset("booked", "a", true);
System.out.println(Arrays.asList(syn));

结果:

[INFO] RiTa.WordNet.version [033]
[booked, engaged, set-aside] 

关于java - synset 中的 wordnet 词组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13170473/

相关文章:

machine-learning - 有没有办法找到整个数据集中最具代表性的一组样本?

java - 麻省理工学院 Java WordNet 接口(interface) : Getting WordNet lexicographer classes or super-senses

nlp - 获取指定单词的 WordNet 域名

Java:在一行中初始化两个ArrayLists的数组

Java和Firebird Embedded如何创建db?

python - 找到与单词集最接近的单词

python-3.x - 如何为 BERT 准备文本 - 出现错误

java - Lucene 8.5 中的自定义分析器

java - 这种情况的异常处理模式?

java - 如何将 Sleuth 集成到 Spring Boot 1.5 中以在较新的 Spring Boot 2.2 中传播跟踪 ID?