search - 将 TF-IDF(余弦相似度)与 pagerank 相结合?

标签 search search-engine tf-idf cosine-similarity

给定一个查询,我有一个文档的余弦分数。我也有文件pagerank。是否有将两者结合的标准好方法?

我想把它们相乘

 Total_Score = cosine-score * pagerank

因为如果你的 pagerank 或 cosine-score 都很低,那么文档就没什么意思了。

或者最好有一个加权和?
Total_Score = weight1 * cosine-score + weight2 * pagerank

这是否更好?那么您的余弦分数可能为零,但页面排名很高,并且该页面将显示在结果中。

最佳答案

加权总和作为排名规则可能更好。

它有助于将问题分解为检索/过滤步骤和排名步骤。用加权和方法概述的问题然后不再成立。

this 中概述的过程Sergey Brin 和 Lawrence Page 的论文使用向量/余弦模型的变体进行检索,并且似乎是某种加权和,其中权重由用户事件确定(参见第 4.5.1 节)。使用这种方法,具有零余弦的文档将无法通过检索/过滤步骤,因此不会考虑进行排名。

关于search - 将 TF-IDF(余弦相似度)与 pagerank 相结合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14940569/

相关文章:

python - 在 TfidfVectorizer() 中输入文档术语频率矩阵?

mysql - 从 mysql 数据库匹配一组给定的关键字

sql - sphinx 问题: Structuring database

mysql - 为什么这个 sphinx 查询这么慢?按 id DESC 排序

python - TfidfVectorizer stop_words 参数不起作用?

python - TfidfVectorizer 删除 tf-idf 分数为零的特征

Rails 中的 MySQL 全文搜索?

python - 以编程方式访问字典中任意深度嵌套的值

search - 信息检索 : How to combine different word results when using tf-idf?

ruby-on-rails - 使用Tire&Bonsai.io在Heroku上部署ElasticSearch