我无法使用 weka 库处理集群。我有字符串属性,所以我使用 StringToWordVector 过滤器,但是在聚类后如何从 WordVector 移回字符串表示以显示“人类可读”的结果? 我想恢复这个操作:
StringToWordVector filter = new StringToWordVector();
filter.setInputFormat(instancesToFilter);
Instances dataFiltered = Filter.useFilter(instancesToFilter, filter);
这可能吗?
最佳答案
StringToWordVector
过滤器无法反转。但是,您至少有两种可能性:
- 如果您只想查看或显示每个集群中的原始字符串,您可以添加一个
ID
属性,确保在集群期间不使用它(以避免意外行为),然后恢复来自原始字符串的文本(ARFF
文件)。 - 如果你想对每个聚类的内容显示一些有意义的摘要,你可以只输出每个聚类中最频繁/最重的词。在对文本进行聚类时,这是一种相当常见的方法。
关于java - weka StringToWordVector 过滤器还原 (java),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21260583/