hadoop - 使用MapReduce进行聚类的设计

标签 hadoop mapreduce cluster-analysis data-mining k-means

我有一个类似的矩阵:ItemAItemBSimilarity

我希望它使用Kmeans使用MapReduce等算法对数据集进行聚类。但是我不知道我应该使用多少MapReduce以及如何设计它们。

最佳答案

不能将k-means与相似矩阵一起使用。故事的结尾:k-均值需要与均值相似,而不是实例之间。但是,还有其他算法。不幸的是,例如,PAM的伸缩性如此之差,也无法在集群上运行它。

除此之外,只需进行实验。例如,根据需要选择尽可能多的减径;并选择群集可以承受的尽可能多的映射器(除非您的数据太小-每个映射器应有几个MB才能使启动成本得到返回)

但我认为您尚未准备好解决该问题。首先弄清楚您想做什么,然后如何设置可能会或根本不会出现的参数。

关于hadoop - 使用MapReduce进行聚类的设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25800256/

相关文章:

python - 如何调整/选择 AffinityPropagation 的偏好参数?

regex - 查找正则表达式中双引号之间的所有CR或LF(只需输入)

hadoop - 获取几行HDFS数据

java - Hadoop 单节点集群 - 进程未运行

R聚类-带有观察标签的轮廓

prolog - 在Prolog中实现简单的聚类算法

hadoop - 为什么我在 hbase 中放入或获取相同的列,但获取不同的列数据大小

hadoop - Mapreduce程序可计算文件中单词的总数

hadoop - 将 Hadoop MapReduce 限制为特定文件扩展名

java - 访问MapReduce中的args[0]值