我有一个包含 5 个变量和 1 个响应的数据集。变量是离散的。我想找到导致响应显着增加或减少的关键变量及其值。
最佳答案
您需要执行一些统计测试才能找到哪些变量最显着。
如果你熟悉Python,你可以使用SelectKBest来自 scikit-learn。它会给你一个分数,分数越高,特征和输出之间的联系越强。
此外,您还可以训练一个可解释的 ML 模型,该模型足够强大以收敛,并找到数据中的模式,从中您可以计算特征重要性。
例如,您可以使用 DecisionTreeClasifier来自 scikit-learn。它有一个 decision_path 类函数,它将绘制树所采取的决策路径,decision_path 有一个名为 feature_importances_ 的属性,它使用基尼系数来计算功能的重要性。
最后但并非最不重要的一点是,您可以使用特征缩减技术,例如 PCA ,它用于查找变量之间的方差,从PCA中,您将计算与特征相关的新主成分,从最具解释性的主成分中,您可以找到特征的重要性。检查这个stack overflow answer这解释了你应该知道的一切。
关于machine-learning - 是否有任何方法可以找到对响应有显着影响的变量值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59819287/