python - 词嵌入的语义加权均值

标签 python vector semantics word2vec word-embedding

给定一个词嵌入向量列表,我试图计算平均词嵌入,其中某些词比其他词更有意义。换句话说,我想计算一个语义加权词嵌入。

我发现的所有东西都是为了找到表示列表平均含义的平均向量(当然这很简单)或某种用于文档表示的单词加权平均值,但这不是我想要的.

例如,给定 ['sunglasses', 'jeans', 'hats'] 的词向量,我想计算这样一个表示这些词语义的向量,但是 “太阳镜” 具有更大的语义影响。因此,在比较相似度时,单词 'glasses' 应该比 'pants' 与列表更相似。

我希望问题很清楚,非常感谢您!

最佳答案

其实词向量的平均可以通过两种方式来完成

  1. 没有 tfidf 权重的词向量的均值。

  2. 词向量的平均值乘以 tfidf 权重。

这将解决您的单词重要性问题。

关于python - 词嵌入的语义加权均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49059089/

相关文章:

python - 在 PyQt 中使用拖放重新排序 QTreeWidget 中的项目

python - Airflow :并行链接任务

c++ - "= 0"在 C++ 中是什么意思?

r - 如何创建一个空的日期向量?

c++ - 如何从 C++ 中的 vector 中删除节点

java - 使用 TopBraid SPIN API 运行 SPARQL/SPIN 模板

c - 为什么数字句柄有时被称为 "name"?

python - 单击网页上的隐形按钮(谷歌地图)

python - 在 Python 中关闭文件

C++:检查 vector<Class> 是否是 vector<Class> 的子集