java - weka StringToWordVector 过滤器还原 (java)

标签 java cluster-analysis weka text-mining

我无法使用 weka 库处理集群。我有字符串属性,所以我使用 StringToWordVector 过滤器,但是在聚类后如何从 WordVector 移回字符串表示以显示“人类可读”的结果? 我想恢复这个操作:

StringToWordVector filter = new StringToWordVector();
filter.setInputFormat(instancesToFilter);
Instances dataFiltered = Filter.useFilter(instancesToFilter, filter);

这可能吗?

最佳答案

StringToWordVector 过滤器无法反转。但是,您至少有两种可能性:

  • 如果您只想查看或显示每个集群中的原始字符串,您可以添加一个 ID 属性,确保在集群期间不使用它(以避免意外行为),然后恢复来自原始字符串的文本(ARFF 文件)。
  • 如果你想对每个聚类的内容显示一些有意义的摘要,你可以只输出每个聚类中最频繁/最重的词。在对文本进行聚类时,这是一种相当常见的方法。

关于java - weka StringToWordVector 过滤器还原 (java),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21260583/

相关文章:

java - 在 Eclipse Juno 中与 SONAR 关联时始终显示没有结果

java.net.BindException 如何清除套接字或导致它的原因?

r - 在 R 中将数据结构绘制为树

python - 为什么在聚类之前跨行而非列进行数据标准化(预处理)

machine-learning - 使用 SVM 进行分类和回归之间的差异

weka - runweka.bat 似乎没有对 Windows 7 上的 Weka 3.7.10 执行任何操作

java - 使用 Outlook 电子邮件将新行追加到 Java StringBuilder

java - 我们可以在 hibernate.cfg.xml 文件中使用 hibernate.hbm2ddl.auto=create 和 hibernate.hbm2ddl.auto=update 吗

matrix - 在非常大的稀疏矩阵上聚类?

machine-learning - 对与另一个较小数据集类似的数据集中的实例进行分类的算法,其中这个较小的数据集代表单个类