machine-learning - 是否有任何方法可以找到对响应有显着影响的变量值？

我有一个包含 5 个变量和 1 个响应的数据集。变量是离散的。我想找到导致响应显着增加或减少的关键变量及其值。

最佳答案

您需要执行一些统计测试才能找到哪些变量最显着。

如果你熟悉Python，你可以使用SelectKBest来自 scikit-learn。它会给你一个分数，分数越高，特征和输出之间的联系越强。

此外，您还可以训练一个可解释的 ML 模型，该模型足够强大以收敛，并找到数据中的模式，从中您可以计算特征重要性。

例如，您可以使用 DecisionTreeClasifier来自 scikit-learn。它有一个 decision_path 类函数，它将绘制树所采取的决策路径，decision_path 有一个名为 feature_importances_ 的属性，它使用基尼系数来计算功能的重要性。

最后但并非最不重要的一点是，您可以使用特征缩减技术，例如 PCA ，它用于查找变量之间的方差，从PCA中，您将计算与特征相关的新主成分，从最具解释性的主成分中，您可以找到特征的重要性。检查这个stack overflow answer这解释了你应该知道的一切。

关于machine-learning - 是否有任何方法可以找到对响应有显着影响的变量值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59819287/

上一篇：python - OTB 是否足以评估随机森林或 bagging 分类器，或者交叉验证也适用于此？

下一篇：tensorflow - 用于 ML 预测的 Celery 任务在执行中挂起

相关文章：

python - 如何获得指数和 Gamma 分布的对数似然

matlab - MATLAB 中的二维加权核密度估计 (KDE)

ruby - 实现k最近邻需要哪些数据？

r - 如果可能，在 R - 基 R 中着色置信区间

scipy - Scikit-Learn 的 DPGMM 拟合 : number of components?

matlab - MATLAB ks密度函数是否执行边界校正？

machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn)

python - 多类 SVM 将所有样本分类为最可能的类别

python - 朴素贝叶斯分类器 : Only get 30-40% accuracy on iris data set

python - 如何将不同维度的多个分类输入变量用于随机森林回归模型？