machine-learning - word2vec 中互为标量倍数的词向量之间期望的语义关系是什么?

标签 machine-learning nlp pca word2vec linguistics

假设您有一个单词 queen 的词向量。对于任何实际值,其标量倍数将是 x = queen + queeny = queen + queen + queenn * queen n (因此我们还考虑 n 的非整数值,例如 0.83 * queen )。

根据最相似单词的投影权重向量的简单均值与向量 queen + queen 之间的余弦相似度,将 x 视为与向量 queen + queen 最相似的单词。

用同样的方法将y视为与向量queen + queen + queen最相似的词。

那么单词xyqueen之间的语义关系是什么?我知道这些向量在向量内的维度值之间都具有相同的比率,但我很难弄清楚如何从单词含义的角度来阅读它。

我的直觉告诉我,我会在另一个上下文中得到一些东西,该东西在该上下文中的位置类似于女王。例如,女王的“财富”可能明显大于女王的“美貌”。所以我会在另一个上下文中得到另一个词,它与“女王”具有相同的财富/美丽平衡。

假设我将女王乘以 n,我将从皇家头衔(女王、国王、公主...)转移到福布斯排行榜(杰夫·贝佐斯、比尔·盖茨、沃伦·巴菲特...)。

女王 * n = 福布斯排行榜上与女王具有相同财富/美丽平衡的人(非常富有,但不是很漂亮)

公主 * n = 福布斯排行榜上与公主拥有相同财富/美丽平衡的人(中等富裕,但非常漂亮)

但这只是一个疯狂的理论,我不知道如何系统地证明这是真的。

最佳答案

wv['queen'] 最余弦相似的单词将与与 n * wv['queen'] 最余弦相似的单词完全相同 code>,对于任何 n,因为余弦相似度不受矢量幅度的影响。所以,你的假设是错误的。

如果您要在原始(非单位标准化)单词向量上使用欧几里德距离而不是余弦相似度,您可能会发现一些其他有趣的关系......但这不是使用/比较单词的典型方法-向量,所以你必须进行实验,我对你会发现什么或者它是否有用没有期望。

一般来说,对于具有单一狭义的单词(它们出现的所有上下文都非常相似),原始的非单位标准化单词向量往往具有更高的量级,而具有多种含义和不同上下文的单词往往具有较小的幅度。但我不确定你是否可以完全依赖这一点。一旦词向量被归一化为单位长度——因此所有词都在同一个“单位球”上——那么最近邻的排序将通过余弦距离或欧几里得-距离(即使每个等级的距离/相似度数字的大小不相同或不成比例)。

关于machine-learning - word2vec 中互为标量倍数的词向量之间期望的语义关系是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51610905/

相关文章:

nlp - word2vec 或 skip-gram 模型如何将单词转换为向量?

python-3.x - 使用 Spacy 从文本文件中提取名称

machine-learning - 一种视觉上可分离簇的聚类算法

r - 使用自动绘图绘制 PCA 双图 : modify arrow thickness

python - 错误 - 在 python 中计算 PCA 的欧几里得距离

python - Pandas 拆分-应用-组合

matlab - 误差反向传播 - 神经网络

keras - 如何在预训练的 ELMO 嵌入中获得相似的词?

python - 安装 mlxtend 时权限被拒绝 (Python 3)

python - 如何根据组中的其他实例对实例进行分类?