我想在 WEKA 中进行特征分析。我有一个包含 8 个特征和 65 个实例的数据集。
我想执行可用于 SVM 等机器学习方法的特征选择和优化功能。 例如,在 Weka 中,我想知道如何显示哪些特征对分类结果贡献最大。
我认为 WEKA 提供了一个很好的图形用户界面,并且允许对单个特征的影响进行非常详细的分析。但我不知道如何使用它。有什么帮助吗?
最佳答案
您有两个选择:
您可以使用过滤器执行属性选择。例如,您可以将
AttributeSelection
选项卡(或过滤器)与搜索方法Ranker
和属性评估指标InfoGainAttributeEval
结合使用。通过这种方式,您可以根据其信息增益得分获得最具预测性特征的排名列表。我已经这样做了很多次并取得了良好的效果。有时它甚至有助于提高支持向量机的准确性,众所周知,支持向量机不需要(太多)特征选择。您可以尝试使用其他搜索方法以及其他指标来查找耦合预测变量的子组。您可以查看 SVM 输出中的系数。例如,在线性 SVM 中,分类器是一个多项式,如
a1.f1 + a2.f2 + ... + an.fn + fn+1 > 0
,即ai
实例的属性值,以及fi
在 SVM 训练算法中获得的“权重”。因此,那些值接近 0 的权重表示不太重要的属性,因此是不好的预测器;极端权重(正或负)代表良好的预测因子。
此外,您可以检查特定分类器可用的可视化选项(例如,J48 是决策树,根测试中使用的属性用于最佳预测器)。您还可以检查 AttributeSelection
选项卡可视化选项。
关于optimization - 如何识别WEKA中的相关特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20537770/