r - R-大数据集中的相关矩阵

我对编程和 R 非常陌生，我目前正在处理一个非常大的数据集(300 列和 400k 行)。有些列不是数字形式(例如，有些列包括客户 ID、国家/地区名称) 、城市名称等)

我希望 R 忽略这些列，只给出它们之间相关性高于 0.95 或低于 -.95 的列组合的名称，因为通常此类列只会在 ML 中产生噪声，并可用于特征缩减。

类似这样的事情: 第 1 列第 2 列相关性: xyz CVG 0.964 xyz yut 0.951 yut cvg 0.967

如果您需要更多信息，请告诉我。感谢您抽出时间。

问候，伍兹

最佳答案

尝试通过可用的详细信息来理解您的问题，您的基本问题似乎是从 data.frame 中提取数字列。首先看一下 is.numeric() 函数。

关于r - R-大数据集中的相关矩阵，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47380461/

相关文章：

r - 无法从 github 安装包 - 无法解释的错误消息