python - 找到与单词集最接近的单词

我需要找到与 model.most_similar() 相反的东西
虽然 most_similar() 返回与输入的单词最相似的单词数组，但我需要找到单词列表的一种“中心”。

gensim 或任何其他工具中是否有可以帮助我的功能？

示例:
给定 {'chimichanga', 'taco', 'burrito'} ，中心可能是 mexico 或 food，具体取决于模型经过训练

最佳答案

如果您提供一个单词列表作为 most_similar() 的 positive 参数，它将报告最接近其平均值的单词(这似乎是一种合理的解释)词“中心”)。

例如:

sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])

(我有点怀疑这里的最高结果sims[0]将是“墨西哥”或“食物”；它很可能是另一个墨西哥食物词。不一定是“更通用”/上位词关系可以在 word2vec 单词之间或在某些方向上找到......但其他一些嵌入技术，例如 hyperbolic embeddings ，可能会提供这一点。)

关于python - 找到与单词集最接近的单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50723841/