我正在根据一般英语中单词的用法寻找字数/频率提取,例如 http://www.wordcount.org/main.php 。我正在使用 JWNL api 来访问 Wordnet 词典,但我找不到任何方法来执行此操作。
最佳答案
您可能想查看 Google N-Grams 语料库。一元组计数将为您提供每个单词的相对频率。在某一时刻,我确实经历了这一过程,并将 WordNet 中的所有单词链接到它们相应的 n 元语法计数;您可以在这里找到我的列表:
https://raw.githubusercontent.com/gangeli/sim/master/etc/weighted_wordnet_vocabulary.tab
请注意,这绝不是一个以任何方式得到官方支持的“规范”列表,它只是我曾经整理过的东西。
关于java - 使用 Wordnet 数据库提取字数/频率计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30650353/