我对编程和 R 非常陌生,我目前正在处理一个非常大的数据集(300 列和 400k 行)。有些列不是数字形式(例如,有些列包括客户 ID、国家/地区名称) 、城市名称等)
我希望 R 忽略这些列,只给出它们之间相关性高于 0.95 或低于 -.95 的列组合的名称,因为通常此类列只会在 ML 中产生噪声,并可用于特征缩减。
类似这样的事情: 第 1 列第 2 列相关性: xyz CVG 0.964 xyz yut 0.951 yut cvg 0.967
如果您需要更多信息,请告诉我。感谢您抽出时间。
问候, 伍兹
最佳答案
尝试通过可用的详细信息来理解您的问题,您的基本问题似乎是从 data.frame 中提取数字列。首先看一下 is.numeric()
函数。
关于r - R-大数据集中的相关矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47380461/