machine-learning - 如何衡量回答相同问题的用户之间的相似度

已关闭。这个问题是 off-topic 。目前不接受答案。

想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。

已关闭10 年前。

我正在开发一个向用户推荐内容的项目。我想为每个用户创建一个个人资料，以便我可以对他们进行聚类并提供共同的建议，但在此之前我必须能够测量这些用户之间的相似性。我想到了可以使用模糊标签填写的调查问卷。

我的问题是如何衡量回答此类问题的两个用户 U1 和 U2 的相关性(相似性)？

我想过将答案转换为数值，然后尝试计算 PIL 逊相关系数。但我想知道是否有更优雅的方法来做到这一点。

最佳答案

将数值(来自提供的答案)转换为一个向量，然后应用余弦相似度函数会很有用。余弦相似度已被证明比 PIL 逊相关系数更可靠(且更快)。

尽管如此，这不是一个小问题，实现起来可能非常具有挑战性。

关于machine-learning - 如何衡量回答相同问题的用户之间的相似度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13234636/

相关文章：

java - Mahout:(快速性能)如何将首选项写入文件？