我想知道如何使用 java 中的 canopy cluster 对该输入进行聚类?
1 access 375
1 addition 375
1 advance 375
1 answered 375
1 applied 375
1 approximate 375
1 evil 375
1 hiway 375
1 home 375
1 hope 375
1 hotmail 375
3 town 375
4 forum 375
4 good 375
4 reig 375
5 plot 375
其中第一列是单词的频率。第二列是单词,第三列是单词总数。
如何进行树冠排序?想知道什么是阈值?
最佳答案
Canopy 聚类应用于 vector 和完整文本,而不是单个单词。
您认为集群是什么?除非您清楚期望集群是什么样子,否则您永远不会弄清楚什么是正确的算法。
那么您期望这样的集群:
1 access 375
1 addition 375
1 advance 375
1 answered 375
1 applied 375
1 approximate 375
(以a开头的生僻字)?这对你有用吗?
聚类算法并不是神奇的工具。您需要仔细选择和配置它们以产生您感兴趣的结果。
关于java - 简单的java程序根据它们的值来处理canopy簇字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14855306/