我有一个类似的矩阵:ItemA
,ItemB
,Similarity
。
我希望它使用Kmeans
使用MapReduce
等算法对数据集进行聚类。但是我不知道我应该使用多少MapReduce
以及如何设计它们。
最佳答案
您不能将k-means与相似矩阵一起使用。故事的结尾:k-均值需要与均值相似,而不是实例之间。但是,还有其他算法。不幸的是,例如,PAM的伸缩性如此之差,也无法在集群上运行它。
除此之外,只需进行实验。例如,根据需要选择尽可能多的减径;并选择群集可以承受的尽可能多的映射器(除非您的数据太小-每个映射器应有几个MB才能使启动成本得到返回)
但我认为您尚未准备好解决该问题。首先弄清楚您想做什么,然后如何设置可能会或根本不会出现的参数。
关于hadoop - 使用MapReduce进行聚类的设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25800256/