我的用户配置文件具有以下属性。 U={年龄、性别、国家/地区、种族} 查找两个用户之间相似性的最佳方法是什么? 例如我有以下 2 个用户。 u1={25,M,美国,白人} u2={30,M,UK,黑色}
我搜索了一下,发现余弦相似度提到很多。这对我的问题有好处还是有其他建议。
最佳答案
聚类分析中对象之间的相似性度量是一个广泛的主题。
我建议您考虑“分而治之”的方法。将两个用户配置文件之间的相似性视为所有属性相似性的加权平均值。只需记住在执行平均值之前使用归一化值来表示您的属性相似度。平均值的权重应根据数据和用例来决定。如果您认为其中一个维度在两个配置文件之间匹配时更重要,那么它在整体结果中应该具有更大的权重。
对于属性距离可以尝试:age -> simple Euclidian;性别、种族、国家 -> 0/1。如果您有时间,可以根据地理定位更好地定义两个国家之间的距离。或文化相似性(例如语言、宗教、政治制度、国内生产总值……)。但最终平均值的权重实验和集群结果分析可能会给您带来更多返回;-)
关于machine-learning - 查找两个用户配置文件之间的相似性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30535962/