hadoop - 如何在mahout中获取群集的主题和文件?

标签 hadoop machine-learning hdfs data-mining mahout

我是mahout的新手。我想知道如何获取特定群集的主题和该群集的文件名。即,这些文件通过这些主题聚类到该集群中。我读到有一个实用程序ClusterDumper可以完成此任务。但是我不知道如何。有人可以举例说明完成这项任务吗?

最佳答案

聚类!=主题建模。

假设您正在谈论k均值,则群集将为您提供平均单词频率 vector 。将其变成对最终用户有意义的主题是一项非常不同且更具挑战性的任务。 不要以为Mahout会给您带来类似于“美式足球” 的漂亮结果。不可以没有人可以在没有监督的情况下执行此操作。

关于hadoop - 如何在mahout中获取群集的主题和文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26406074/

相关文章:

hadoop - Spark 1.3.0 : Running Pi example on YARN fails

python - 基于其他数据框向 Pandas 数据框添加新列

python - 如何计算文档与每个质心之间的距离(k-means)?

linux - 如何在工作机器上增加磁盘的情况下更新蓝图/ambari 集群

testing - 使用 Hive 进行数据测试

hadoop - Cloudera hadoop : not able to run Hadoop fs command and at same time HBase is not able to create directory on HDFS?

hadoop - 组织.apache.ignite.IgniteException : For input string: "30s" in ignite hadoop execution

java - 无法通过 jdbc 连接到配置单元

java - : java. lang.ClassNotFoundException : org. apache.hive.hcatalog.data.JsonSerDe.引起的如何解决?

machine-learning - 通过了解一些 future 事件来增强预测