hadoop - 使用MapReduce进行聚类的设计

标签 hadoop mapreduce cluster-analysis data-mining k-means

我有一个类似的矩阵:ItemA，ItemB，Similarity。

我希望它使用Kmeans使用MapReduce等算法对数据集进行聚类。但是我不知道我应该使用多少MapReduce以及如何设计它们。

最佳答案

您不能将k-means与相似矩阵一起使用。故事的结尾:k-均值需要与均值相似，而不是实例之间。但是，还有其他算法。不幸的是，例如，PAM的伸缩性如此之差，也无法在集群上运行它。

除此之外，只需进行实验。例如，根据需要选择尽可能多的减径；并选择群集可以承受的尽可能多的映射器(除非您的数据太小-每个映射器应有几个MB才能使启动成本得到返回)

但我认为您尚未准备好解决该问题。首先弄清楚您想做什么，然后如何设置可能会或根本不会出现的参数。

关于hadoop - 使用MapReduce进行聚类的设计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25800256/

上一篇：hadoop - Mapreduce 1算法的缺点是什么

下一篇：hadoop - Hadoop上的Mahout k-means

regex - 查找正则表达式中双引号之间的所有CR或LF(只需输入)

hadoop - 获取几行HDFS数据

java - Hadoop 单节点集群 - 进程未运行

R聚类-带有观察标签的轮廓

prolog - 在Prolog中实现简单的聚类算法

hadoop - 为什么我在 hbase 中放入或获取相同的列，但获取不同的列数据大小

hadoop - Mapreduce程序可计算文件中单词的总数

hadoop - 将 Hadoop MapReduce 限制为特定文件扩展名

java - 访问MapReduce中的args[0]值