java - 简单的java程序根据它们的值来处理canopy簇字符串

标签 java string cluster-analysis

我想知道如何使用 java 中的 canopy cluster 对该输入进行聚类?

       1 access 375
       1 addition 375
       1 advance 375
       1 answered 375
       1 applied 375
       1 approximate 375
       1 evil 375

       1 hiway 375
       1 home 375
       1 hope 375
       1 hotmail 375
       3 town 375
       4 forum 375
       4 good 375
       4 reig 375
       5 plot 375

其中第一列是单词的频率。第二列是单词,第三列是单词总数。

如何进行树冠排序?想知道什么是阈值?

最佳答案

Canopy 聚类应用于 vector 完整文本,而不是单个单词

您认为集群是什么?除非您清楚期望集群是什么样子,否则您永远不会弄清楚什么是正确的算法。

那么您期望这样的集群:

   1 access 375
   1 addition 375
   1 advance 375
   1 answered 375
   1 applied 375
   1 approximate 375

(以a开头的生僻字)?这对你有用吗?

聚类算法并不是神奇的工具。您需要仔细选择和配置它们以产生您感兴趣的结果。

关于java - 简单的java程序根据它们的值来处理canopy簇字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14855306/

相关文章:

java - Wiremock 如何确定要使用哪个 TLS 版本?

sql - 这个sql做什么

machine-learning - Scikit learn 的 Spectral clustering 函数可以处理多大的矩阵大小?

excel - Excel 中的聚类

machine-learning - 模糊 c- 表示分类数据

java - 无可用连接时的 HikariCP 行为

java - 除了 JSObject 之外,java 1.1 中还有另一种方法来处理 Applet 中的 cookie

java - Java中队列链表中的递归toString

string - 查找字符串中最后一次出现的 char

javascript - 将 HTML 标签转义为 HTML 实体的最快方法?