python - 相关系数说明-特征选择

标签 python heatmap correlation feature-selection

如何根据相关系数确定要从模型中删除的变量。

参见下面的变量示例:

Top 10 Absolute Correlations:
  Variable 1      Variable 2        Correlation Value
    pdays           pmonths           1.000000
    emp.var.rate    euribor3m         0.970955
    euribor3m       nr.employed       0.942545
    emp.var.rate    nr.employed       0.899818
    previous        pastEmail         0.798017
    emp.var.rate    cons.price.idx    0.763827
    cons.price.idx  euribor3m         0.670844
    contact         cons.price.idx    0.585899
    previous        nr.employed       0.504471
    cons.price.idx  nr.employed       0.490632

自相关变量的相关矩阵热图“”:

Below picture is the correlation matrix heat map of Independent variables

问题:

1)如何从两个变量之间计算的相关值中删除一个高相关变量

Ex : pdays pmonths 之间的相关值为 1.000000
从模型中删除哪个变量?天还是月?如何确定变量?

2)什么是相关阈值范围被认为可删除变量?例如:> 0.65或> 0.90等

3)能否请您解释上面的热图,并给出有关要删除的变量及其原因的解释?

最佳答案

您可以尝试使用其他选择标准来在每对高度相关的特征之间进行选择。例如,您可以使用信息增益(IG),该信息可以度量某个要素提供的有关该类的信息(即,其熵的减少量[TAL14],[SIL07])。一旦您检测到一对高度相关的功能(例如,正如您所提到的 pdays pmonths ),您就可以测量每个变量的IG并保持IG最高。不过,您也可以使用其他选择标准来代替IG(例如,互信息最大化[BHS15])。
对于阈值,您可以选择所需的值(取决于您的问题)。但是,为了安全起见,我会选择较高的值(例如0.95),尽管您也可以考虑将其设置为0.94或0.9左右。此外,您总是可以稳定一个较高的值,然后降低该值以检查模型的性能。
[TAL14]唐继良,塞勒姆·阿莱亚尼和刘欢。分类的特征选择:评论,第37–64页。 CRC出版社,2014年1月。
[SIL07] Yvan Saeys,IñakiInza和PedroLarrañaga。生物信息学中的特征选择技术综述。生物信息学,23(19):2507-2517,2007年。
[BHS15] Mohamed Bennasar,Yulia Hicks和Rossitza Setchi。使用联合互信息最大化进行特征选择。专家系统的应用,42(22):8520-8532,2015。

关于python - 相关系数说明-特征选择,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62391208/

相关文章:

r - 数字变量和 boolean 变量之间的相关性

Python - Pandas 数据框中日期的日历 View

python - python卡住实用程序在哪里

r - ggplot2 热图 : how to preserve the label order?

android - WeightedLatLng 和集合<WeightedLatLng>

python - 有没有更快的方法来获得相关系数?

python - 在python中查看本地路径(目录)中的图像?

python - 我们如何从输入图像中去除棋盘状噪声

python - 如何在 seaborn 热图中反转色标

r - 为什么R中 'cor'函数计算的相关性与向量之间角度的余弦不同