r - R-大数据集中的相关矩阵

标签 r machine-learning

我对编程和 R 非常陌生,我目前正在处理一个非常大的数据集(300 列和 400k 行)。有些列不是数字形式(例如,有些列包括客户 ID、国家/地区名称) 、城市名称等)

我希望 R 忽略这些列,只给出它们之间相关性高于 0.95 或低于 -.95 的列组合的名称,因为通常此类列只会在 ML 中产生噪声,并可用于特征缩减。

类似这样的事情: 第 1 列第 2 列相关性: xyz CVG 0.964 xyz yut 0.951 yut cvg 0.967

如果您需要更多信息,请告诉我。感谢您抽出时间。

问候, 伍兹

最佳答案

尝试通过可用的详细信息来理解您的问题,您的基本问题似乎是从 data.frame 中提取数字列。首先看一下 is.numeric() 函数。

关于r - R-大数据集中的相关矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47380461/

相关文章:

r - 无法从 github 安装包 - 无法解释的错误消息

r - 创建只有 1 个 ID 列的宽数据

r - 通过排列两个变量(dplyr)添加计数器列

python - 如何在 scikit 学习回归中不标准化目标数据

r - ggplot2:将标签标记为以 e 为底的指数

python - SKlearn X 和 Y 的 reshape 警告

python - sklearn中的Y应该是什么格式?

python - 如何在 Keras/TensorFlow 的自定义层中应用内核正则化?

machine-learning - 机器学习分类: Target variable almost completely one class

r - 向量 y <- c ("abc"、 "def"、 ""、 "ghi") 中的第三个值是 NULL、NA 还是其他值?