cluster-analysis - 寻找基于对象属性对对象进行分类的方法

标签 cluster-analysis classification

我有一组 ~10K 对象,每个对象都有大约 150 个不同的属性,其中大约四分之一是多值的和/或与其他属性相关的。

我有一组大约 120 个类别,我想将这些对象分类到其中,每个类别都被定义为一个"template"对象。如果一个实例与模板完全匹配,则该对象显然属于该类别……但是,实际上只有大约 10% 的对象具有完全匹配的模板。因此,我希望能够根据对象与类别的相似性对对象进行评分,并将它们分类为最佳匹配。我还想识别非常相似的对象集群,表明新/改进类别的潜力。

这似乎是 Weka、RapidMiner 或其他机器学习/集群/分类系统的工作。但是,我很难找到该领域的良好介绍 Material ,因此无法说明在这种情况下使用这些工具需要付出多少努力。鉴于这可能是一个持续的需求,我想使用一些可以让我轻松更改分析方法、权重等的东西。

想法?

最佳答案

让我们谈谈..如果您的职责是对这些对象进行分类,那么您将能够手动对它们发疯!我正在剖析一个类似的数据集,但总是回到同一点......这些对象〜基本上〜相同.将它们分开的模糊逻辑是 chalice ..但 chalice 是模糊的......:(你能做什么?......给你的老板一些模糊的公式?这将持续一段时间......你可以花一个一生都在努力寻找模式,但这可能会让你失望——为什么不试着把视角转移到你可以量化的东西上呢?专注于输出..

关于cluster-analysis - 寻找基于对象属性对对象进行分类的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/957469/

相关文章:

java - weka StringToWordVector 过滤器还原 (java)

machine-learning - 了解文本分类的朴素贝叶斯

machine-learning - 分类算法训练集的错误

machine-learning - 如何选择朴素贝叶斯分类器的训练数据

java - Java 中的二维 HashMap (以及一般情况下)

python - 重新排序簇号以实现正确对应

hadoop - Mahout:通过命令行可视化集群

r - 传递给 .Fortran() 时无法找到 C_kmns 对象

machine-learning - 为什么神经元网络的隐藏状态不能提供比原始输入更好的降维结果?

python - 在决策树中查找到决策边界的距离