machine-learning - word2vec 中互为标量倍数的词向量之间期望的语义关系是什么？

假设您有一个单词 queen 的词向量。对于任何实际值，其标量倍数将是 x = queen + queen 、 y = queen + queen + queen 和 n * queen n (因此我们还考虑 n 的非整数值，例如 0.83 * queen )。

根据最相似单词的投影权重向量的简单均值与向量 queen + queen 之间的余弦相似度，将 x 视为与向量 queen + queen 最相似的单词。

用同样的方法将y视为与向量queen + queen + queen最相似的词。

那么单词x、y和queen之间的语义关系是什么？我知道这些向量在向量内的维度值之间都具有相同的比率，但我很难弄清楚如何从单词含义的角度来阅读它。

我的直觉告诉我，我会在另一个上下文中得到一些东西，该东西在该上下文中的位置类似于女王。例如，女王的“财富”可能明显大于女王的“美貌”。所以我会在另一个上下文中得到另一个词，它与“女王”具有相同的财富/美丽平衡。

假设我将女王乘以 n，我将从皇家头衔(女王、国王、公主...)转移到福布斯排行榜(杰夫·贝佐斯、比尔·盖茨、沃伦·巴菲特...)。

女王 * n = 福布斯排行榜上与女王具有相同财富/美丽平衡的人(非常富有，但不是很漂亮)

公主 * n = 福布斯排行榜上与公主拥有相同财富/美丽平衡的人(中等富裕，但非常漂亮)

但这只是一个疯狂的理论，我不知道如何系统地证明这是真的。

最佳答案

与 wv['queen'] 最余弦相似的单词将与与 n * wv['queen'] 最余弦相似的单词完全相同 code>，对于任何 n，因为余弦相似度不受矢量幅度的影响。所以，你的假设是错误的。

如果您要在原始(非单位标准化)单词向量上使用欧几里德距离而不是余弦相似度，您可能会发现一些其他有趣的关系......但这不是使用/比较单词的典型方法-向量，所以你必须进行实验，我对你会发现什么或者它是否有用没有期望。

一般来说，对于具有单一狭义的单词(它们出现的所有上下文都非常相似)，原始的非单位标准化单词向量往往具有更高的量级，而具有多种含义和不同上下文的单词往往具有较小的幅度。但我不确定你是否可以完全依赖这一点。一旦词向量被归一化为单位长度——因此所有词都在同一个“单位球”上——那么最近邻的排序将通过余弦距离或欧几里得-距离(即使每个等级的距离/相似度数字的大小不相同或不成比例)。

关于machine-learning - word2vec 中互为标量倍数的词向量之间期望的语义关系是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51610905/

machine-learning - word2vec 中互为标量倍数的词向量之间期望的语义关系是什么？

上一篇：apache-spark - 如何使用 KMeans 在 Spark 中对推文进行聚类？

下一篇：Python/GPyOpt : Optimizing only one argument