我是mahout的新手。我想知道如何获取特定群集的主题和该群集的文件名。即,这些文件通过这些主题聚类到该集群中。我读到有一个实用程序ClusterDumper可以完成此任务。但是我不知道如何。有人可以举例说明完成这项任务吗?
最佳答案
聚类!=主题建模。
假设您正在谈论k均值,则群集将为您提供平均单词频率 vector 。将其变成对最终用户有意义的主题是一项非常不同且更具挑战性的任务。 不要以为Mahout会给您带来类似于“美式足球” 的漂亮结果。不可以没有人可以在没有监督的情况下执行此操作。
关于hadoop - 如何在mahout中获取群集的主题和文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26406074/