java - 使用 Wordnet 数据库提取字数/频率计数

标签 java stanford-nlp wordnet

我正在根据一般英语中单词的用法寻找字数/频率提取,例如 http://www.wordcount.org/main.php 。我正在使用 JWNL api 来访问 Wordnet 词典,但我找不到任何方法来执行此操作。

最佳答案

您可能想查看 Google N-Grams 语料库。一元组计数将为您提供每个单词的相对频率。在某一时刻,我确实经历了这一过程,并将 WordNet 中的所有单词链接到它们相应的 n 元语法计数;您可以在这里找到我的列表:

https://raw.githubusercontent.com/gangeli/sim/master/etc/weighted_wordnet_vocabulary.tab

请注意,这绝不是一个以任何方式得到官方支持的“规范”列表,它只是我曾经整理过的东西。

关于java - 使用 Wordnet 数据库提取字数/频率计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30650353/

相关文章:

java - 谷歌应用引擎 : ClassNotFoundException after deploy but runs fine on local server

java - Jackson 将 Map 合并到 json 对象中

stanford-nlp - 在 StanfordCoreNLPServer 输出中同时具有 NER 和 RegexNER 标签?

java - WordNet:SenseRelate在Java中如何使用?

nlp - 如何消除 Conceptnet 中的单词歧义

java - 如何在 intellij 12.1.4 中进行远程调试?

java - 消费者在 Apache Kafka 中消费消息的延迟

r - R : Spanish language not working 中的斯坦福 CoreNLP

nlp - 如何在我自己的语料库上训练 GloVe 算法

java - 获取带有 JWI 的单词的同义词