给定一个查询,我有一个文档的余弦分数。我也有文件pagerank。是否有将两者结合的标准好方法?
我想把它们相乘
Total_Score = cosine-score * pagerank
因为如果你的 pagerank 或 cosine-score 都很低,那么文档就没什么意思了。
或者最好有一个加权和?
Total_Score = weight1 * cosine-score + weight2 * pagerank
这是否更好?那么您的余弦分数可能为零,但页面排名很高,并且该页面将显示在结果中。
最佳答案
加权总和作为排名规则可能更好。
它有助于将问题分解为检索/过滤步骤和排名步骤。用加权和方法概述的问题然后不再成立。
this 中概述的过程Sergey Brin 和 Lawrence Page 的论文使用向量/余弦模型的变体进行检索,并且似乎是某种加权和,其中权重由用户事件确定(参见第 4.5.1 节)。使用这种方法,具有零余弦的文档将无法通过检索/过滤步骤,因此不会考虑进行排名。
关于search - 将 TF-IDF(余弦相似度)与 pagerank 相结合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14940569/