apache-spark - Spark KMeans 聚类 : get the number of sample assigned to a cluster

标签 apache-spark pyspark cluster-analysis k-means apache-spark-mllib

我正在使用 Spark Mlib 进行 kmeans 聚类。我有一组向量,我想从中确定最可能的聚类中心。所以我将在这个集合上运行 kmeans 聚类训练,并选择分配给它的向量数量最多的集群。

因此,我需要知道训练后分配给每个集群的向量数量(即 KMeans.run(...))。但是我找不到从 KMeanModel 结果中检索此信息的方法。我可能需要运行 predict在所有训练向量上并计算出现最多的标签。

有没有另一种方法可以做到这一点?

谢谢

最佳答案

你是对的,这个信息不是由模型提供的,你必须运行 predict .这是以并行方式执行此操作的示例(Spark v. 1.5.1):

 from pyspark.mllib.clustering import KMeans
 from numpy import array
 data = array([0.0,0.0, 1.0,1.0, 9.0,8.0, 8.0,9.0, 10.0, 9.0]).reshape(5, 2)
 data
 # array([[  0.,   0.],
 #       [  1.,   1.],
 #       [  9.,   8.],
 #       [  8.,   9.],
 #       [ 10.,   9.]])

 k = 2 # no. of clusters
 model = KMeans.train(
                sc.parallelize(data), k, maxIterations=10, runs=30, initializationMode="random",
                seed=50, initializationSteps=5, epsilon=1e-4)

 cluster_ind = model.predict(sc.parallelize(data))
 cluster_ind.collect()
 # [1, 1, 0, 0, 0]
cluster_ind是一个与我们的初始数据具有相同基数的 RDD,它显示了每个数据点属于哪个集群。所以,这里我们有两个集群,一个有 3 个数据点(集群 0),一个有 2 个数据点(集群 1)。请注意,我们以并行方式(即在 RDD 上)运行了预测方法 - collect()此处仅用于演示目的,在“真实”情况下不需要。

现在,我们可以得到集群大小

 cluster_sizes = cluster_ind.countByValue().items()
 cluster_sizes
 # [(0, 3), (1, 2)]

由此,我们可以得到最大集群索引和大小为

 from operator import itemgetter
 max(cluster_sizes, key=itemgetter(1))
 # (0, 3)

即我们最大的集群是集群 0,大小为 3 个数据点,可以通过检查 cluster_ind.collect() 轻松验证以上。

关于apache-spark - Spark KMeans 聚类 : get the number of sample assigned to a cluster,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33495287/

相关文章:

apache-spark - 如何在pyspark中使用df.write.csv附加到csv文件?

apache-spark - 是否可以在 PySpark 中获取当前的 Spark 上下文设置?

r - 了解 R 中的 Biclust 类

hadoop - Hadoop 中的 DBSCAN

java - 解决 Spark Core 和 azure Key Vault 依赖项之间的 guava 冲突

scala - 多项目 sbt-assembly 问题

apache-spark - Spark 驱动程序 pod 被杀死,状态为 'OOMKilled'

apache-spark - 为什么我不能使用 "cat file1.parquet file2. parquet > result.parquet"合并多个 Parquet 文件?

java - 创建 Spark SQL 的 StructType : use add method or a constructor?

Python:NLTK 或其他包中的布朗聚类?