nlp - Brown Corpus在基于WordNet的语义相似度测量中的作用是什么

标签 nlp similarity wordnet corpus semantic-analysis

我遇到了几种使用 WordNet 的结构和层次结构来测量语义相似性的方法,例如江康拉思测度(JNC)、雷斯尼克测度(RES)、林测度(LIN)等。

使用 NLTK 测量它们的方式是:

sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)

如果 WordNet 是计算语义相似度的基础,那么这里的 Brown Corpus 有什么用呢?

最佳答案

看一下 NLTK howto for wordnet. 处的解释

具体来说,*_ic 符号是信息内容。

synset1.res_similarity(synset2, ic): Resnik Similarity: Return a score denoting how similar two word senses are, based on the Information Content (IC) of the Least Common Subsumer (most specific ancestor node). Note that for any similarity measure that uses information content, the result is dependent on the corpus used to generate the information content and the specifics of how the information content was created.



关于 here 信息内容的更多信息:

The conventional way of measuring the IC of word senses is to combine knowledge of their hierarchical structure from an ontology like WordNet with statistics on their actual usage in text as derived from a large corpus

关于nlp - Brown Corpus在基于WordNet的语义相似度测量中的作用是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18705778/

相关文章:

encoding - 理论: "Lexical Encoding"

machine-learning - 文本分类问题: Name and approach of this type of classification

nlp - 哪个更好? OpenCyc 还是 ConceptNet?

algorithm - 系统发育树比较

mysql - ORDER BY Color with Hex Code 作为 MySQL 中的标准

python - 如果单词小于 X,则在列表理解中进行词形还原

python - 如何在 WordNet 中找到两个同义词集之间的语义关系

r - 文档术语矩阵中的最大术语长度

tensorflow - 在 keras 中使用带有 LSTM nn 的 Gensim Fasttext 模型

python - 随机生成相似的向量?