optimization - 如何识别WEKA中的相关特征?

标签 optimization weka feature-selection

我想在 WEKA 中进行特征分析。我有一个包含 8 个特征和 65 个实例的数据集。

我想执行可用于 SVM 等机器学习方法的特征选择和优化功能。 例如,在 Weka 中,我想知道如何显示哪些特征对分类结果贡献最大。

我认为 WEKA 提供了一个很好的图形用户界面,并且允许对单个特征的影响进行非常详细的分析。但我不知道如何使用它。有什么帮助吗?

最佳答案

您有两个选择:

  • 您可以使用过滤器执行属性选择。例如,您可以将 AttributeSelection 选项卡(或过滤器)与搜索方法 Ranker 和属性评估指标 InfoGainAttributeEval 结合使用。通过这种方式,您可以根据其信息增益得分获得最具预测性特征的排名列表。我已经这样做了很多次并取得了良好的效果。有时它甚至有助于提高支持向量机的准确性,众所周知,支持向量机不需要(太多)特征选择。您可以尝试使用其他搜索方法以及其他指标来查找耦合预测变量的子组。

  • 您可以查看 SVM 输出中的系数。例如,在线性 SVM 中,分类器是一个多项式,如 a1.f1 + a2.f2 + ... + an.fn + fn+1 > 0,即 ai 实例的属性值,以及 fi 在 SVM 训练算法中获得的“权重”。因此,那些值接近 0 的权重表示不太重要的属性,因此是不好的预测器;极端权重(正或负)代表良好的预测因子。

此外,您可以检查特定分类器可用的可视化选项(例如,J48 是决策树,根测试中使用的属性用于最佳预测器)。您还可以检查 AttributeSelection 选项卡可视化选项。

关于optimization - 如何识别WEKA中的相关特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20537770/

相关文章:

c# - 优化具有大量实例的 .NET 应用程序的内存占用

c++ - 编译器可以内联在循环内生成对象的方法吗?

gcc 中的编译器优化

algorithm - 我将使用什么特征选择算法来找出哪个特征对每个类的影响最大?

python - SelectKBest (chi2) 如何计算分数?

php - 这是基于操作的用户分级系统的良好实现吗?

java - Weka 未标记属性...它是否必须是实例的一部分才能进行分类?

java - 如何在 Java Weka API 中使用类不平衡技术 (SMOTE)?

machine-learning - WEKA kNN 和动态时间规整的截止值

machine-learning - 监督学习