machine-learning - 如何衡量回答相同问题的用户之间的相似度

标签 machine-learning recommendation-engine collaborative-filtering

我正在开发一个向用户推荐内容的项目。我想为每个用户创建一个个人资料,以便我可以对他们进行聚类并提供共同的建议,但在此之前我必须能够测量这些用户之间的相似性。我想到了可以使用模糊标签填写的调查问卷。

我的问题是如何衡量回答此类问题的两个用户 U1 和 U2 的相关性(相似性)?

  • Q1.我认为东京是一个不错的城市。 U1:完全同意 U2:部分同意 同意
  • Q2.我读过《堂吉诃德》。 U1:完全不同意U2:完全同意
  • ...
  • Qn.我认为塔伦蒂诺是一位优秀的电影导演。 U1: 部分同意U2:部分同意

我想过将答案转换为数值,然后尝试计算 PIL 逊相关系数。但我想知道是否有更优雅的方法来做到这一点。

最佳答案

将数值(来自提供的答案)转换为一个向量,然后应用余弦相似度函数会很有用。余弦相似度已被证明比 PIL 逊相关系数更可靠(且更快)。

尽管如此,这不是一个小问题,实现起来可能非常具有挑战性。

关于machine-learning - 如何衡量回答相同问题的用户之间的相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13234636/

相关文章:

java - Mahout:(快速性能)如何将首选项写入文件?

mysql - MySQL 中的协同过滤?

python - 如何为每个时期保存keras模型的权重?

machine-learning - 局部二元模式直方图的特征?

apache-spark - 如果用户 ID 是字符串而不是连续整数,如何使用 mllib.recommendation?

python - Pandas 值(value)错误: Cannot set a frame with no defined index and a value that cannot be converted to a Series

java - 如何使用训练、测试和验证数据集在 Apache Spark MLlib 的 ALS 中训练矩阵分解模型

python - 了解 Spark MLlib ALS.train 隐式输入格式

machine-learning - 咖啡 |添加新层以使用训练模型后未知的底部 Blob (微调)

python - 具有单独训练集和验证集的 GridSearchCV 错误地还考虑了最终选择最佳模型的训练结果