python - 找到与单词集最接近的单词

标签 python nlp word2vec gensim

我需要找到与 model.most_similar() 相反的东西
虽然 most_similar() 返回与输入的单词最相似的单词数组,但我需要找到单词列表的一种“中心”。

gensim 或任何其他工具中是否有可以帮助我的功能?

示例:
给定 {'chimichanga', 'taco', 'burrito'} ,中心可能是 mexicofood,具体取决于模型经过训练

最佳答案

如果您提供一个单词列表作为 most_similar()positive 参数,它将报告最接近其平均值的单词(这似乎是一种合理的解释)词“中心”)。

例如:

sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])

(我有点怀疑这里的最高结果sims[0]将是“墨西哥”或“食物”;它很可能是另一个墨西哥食物词。不一定是“更通用”/上位词关系可以在 word2vec 单词之间或在某些方向上找到......但其他一些嵌入技术,例如 hyperbolic embeddings ,可能会提供这一点。)

关于python - 找到与单词集最接近的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50723841/

相关文章:

python - 如何使用 gensim 的 word2vec 模型与 python 计算句子相似度

python - Word2Vec 时间复杂度

python - 使用 python 在有限定义区间上数值求解非线性方程组

python - 将 spacy token 向量转换为文本

python - 使用 Python/ElementTree 为 XML 中的元素插入节点

machine-learning - 如何处理这个机器学习/NLP 上下文感知文本分类项目?请参阅下面的描述

python - 如何向 NLTK 中的停用词添加更多语言?

python - Gensim 4.0.1 Word2Vec 模型的索引越界错误

python - 如何将库编译添加到 numpy.distutils.core?

python - 如何从 Mac 连接到蓝牙 4.0/蓝牙 LE 设备?