machine-learning - 是否有任何方法可以找到对响应有显着影响的变量值?

标签 machine-learning statistics

我有一个包含 5 个变量和 1 个响应的数据集。变量是离散的。我想找到导致响应显着增加或减少的关键变量及其值。

最佳答案

您需要执行一些统计测试才能找到哪些变量最显着。

如果你熟悉Python,你可以使用SelectKBest来自 scikit-learn。它会给你一个分数,分数越高,特征和输出之间的联系越强。

此外,您还可以训练一个可解释的 ML 模型,该模型足够强大以收敛,并找到数据中的模式,从中您可以计算特征重要性。

例如,您可以使用 DecisionTreeClasifier来自 scikit-learn。它有一个 decision_path 类函数,它将绘制树所采取的决策路径,decision_path 有一个名为 feature_importances_ 的属性,它使用基尼系数来计算功能的重要性。

最后但并非最不重要的一点是,您可以使用特征缩减技术,例如 PCA ,它用于查找变量之间的方差,从PCA中,您将计算与特征相关的新主成分,从最具解释性的主成分中,您可以找到特征的重要性。检查这个stack overflow answer这解释了你应该知道的一切。

关于machine-learning - 是否有任何方法可以找到对响应有显着影响的变量值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59819287/

相关文章:

python - 如何获得指数和 Gamma 分布的对数似然

matlab - MATLAB 中的二维加权核密度估计 (KDE)

ruby - 实现k最近邻需要哪些数据?

r - 如果可能,在 R - 基 R 中着色置信区间

scipy - Scikit-Learn 的 DPGMM 拟合 : number of components?

matlab - MATLAB ks密度函数是否执行边界校正?

machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn)

python - 多类 SVM 将所有样本分类为最可能的类别

python - 朴素贝叶斯分类器 : Only get 30-40% accuracy on iris data set

python - 如何将不同维度的多个分类输入变量用于随机森林回归模型?