java - weka StringToWordVector 过滤器还原 (java)

标签 java cluster-analysis weka text-mining

我无法使用 weka 库处理集群。我有字符串属性，所以我使用 StringToWordVector 过滤器，但是在聚类后如何从 WordVector 移回字符串表示以显示“人类可读”的结果？我想恢复这个操作:

StringToWordVector filter = new StringToWordVector();
filter.setInputFormat(instancesToFilter);
Instances dataFiltered = Filter.useFilter(instancesToFilter, filter);

这可能吗？

最佳答案

StringToWordVector 过滤器无法反转。但是，您至少有两种可能性:

如果您只想查看或显示每个集群中的原始字符串，您可以添加一个 ID 属性，确保在集群期间不使用它(以避免意外行为)，然后恢复来自原始字符串的文本(ARFF 文件)。
如果你想对每个聚类的内容显示一些有意义的摘要，你可以只输出每个聚类中最频繁/最重的词。在对文本进行聚类时，这是一种相当常见的方法。

关于java - weka StringToWordVector 过滤器还原 (java)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21260583/

上一篇：java - Android 应用程序的后端建议

下一篇：java - HK2 和带有构造函数参数的 Impls

java.net.BindException 如何清除套接字或导致它的原因？

r - 在 R 中将数据结构绘制为树

python - 为什么在聚类之前跨行而非列进行数据标准化(预处理)

machine-learning - 使用 SVM 进行分类和回归之间的差异

weka - runweka.bat 似乎没有对 Windows 7 上的 Weka 3.7.10 执行任何操作

java - 使用 Outlook 电子邮件将新行追加到 Java StringBuilder

java - 我们可以在 hibernate.cfg.xml 文件中使用 hibernate.hbm2ddl.auto=create 和 hibernate.hbm2ddl.auto=update 吗

matrix - 在非常大的稀疏矩阵上聚类？

machine-learning - 对与另一个较小数据集类似的数据集中的实例进行分类的算法，其中这个较小的数据集代表单个类