给定一个词嵌入向量列表,我试图计算平均词嵌入,其中某些词比其他词更有意义。换句话说,我想计算一个语义加权词嵌入。
我发现的所有东西都是为了找到表示列表平均含义的平均向量(当然这很简单)或某种用于文档表示的单词加权平均值,但这不是我想要的.
例如,给定 ['sunglasses', 'jeans', 'hats']
的词向量,我想计算这样一个表示这些词语义的向量,但是 “太阳镜”
具有更大的语义影响。因此,在比较相似度时,单词 'glasses'
应该比 'pants'
与列表更相似。
我希望问题很清楚,非常感谢您!
最佳答案
其实词向量的平均可以通过两种方式来完成
没有 tfidf 权重的词向量的均值。
词向量的平均值乘以 tfidf 权重。
这将解决您的单词重要性问题。
关于python - 词嵌入的语义加权均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49059089/