我需要找到与 model.most_similar() 相反的东西
虽然 most_similar()
返回与输入的单词最相似的单词数组,但我需要找到单词列表的一种“中心”。
gensim 或任何其他工具中是否有可以帮助我的功能?
示例:
给定 {'chimichanga', 'taco', 'burrito'}
,中心可能是 mexico
或 food
,具体取决于模型经过训练
最佳答案
如果您提供一个单词列表作为 most_similar()
的 positive
参数,它将报告最接近其平均值的单词(这似乎是一种合理的解释)词“中心”)。
例如:
sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])
(我有点怀疑这里的最高结果sims[0]
将是“墨西哥”或“食物”;它很可能是另一个墨西哥食物词。不一定是“更通用”/上位词关系可以在 word2vec 单词之间或在某些方向上找到......但其他一些嵌入技术,例如 hyperbolic embeddings ,可能会提供这一点。)
关于python - 找到与单词集最接近的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50723841/