r - 消除 R 中的异常数据点

标签 r dataframe data-cleaning outliers

我有一个看起来有点像这个可重现代码的数据框,我想删除每列的异常值(在我们的例子中,数据点低于或高于平均值 2.5 个标准差),而不删除整个主题/行。

Subj <- c("A", "B", "C", "D", "E", "F", "G", "H", "I", "J")
Var1 <- c("1", "5", "100", "0.1", "3", "5", "2", "3", "2.5", "4")
Var2 <- sample(1:10, 10, replace=TRUE)
Var3 <- runif(10, min=0, max=700)
Var4 <- c("0.5", "0.1", "23", "0.2", "0.4", "0.6", "0.12", "0.3", "0.25", "-75")

df <- as.data.frame(cbind(Subj, Var1, Var2, Var3, Var4))

df$Var1_scale <- scale(as.numeric(df$Var1), scale = TRUE)
df$Var2_scale <- scale(as.numeric(df$Var2))
df$Var3_scale <- scale(as.numeric(df$Var3))
df$Var4_scale <- scale(as.numeric(df$Var4))

我想根据缩放变量消除两个数据点 - Var1 为 100,Var4 为 -75。这样做的最佳方法是什么?我总是将其视为消除行,但这不是这里的目标。

输出看起来像这样(即空白而不是异常值)

   Subj Var1 Var2             Var3 Var4 Var1_scale Var2_scale Var3_scale Var4_scale
1     A    1    9 82.5652090134099  0.5 -0.3757658  0.8660254 -1.2116275  0.2128018
2     B    5    2 606.970524415374  0.1 -0.2457431 -1.1547005  1.2318109  0.1971919
3     C         9 422.833283618093   23  2.8422981  0.8660254  0.3738333  1.0908581
4     D  0.1   10 100.154890632257  0.2 -0.4050210  1.1547005 -1.1296693  0.2010944
5     E    3    4 144.251625519246  0.4 -0.3107545 -0.5773503 -0.9242029  0.2088993
6     F    5    2 310.489796195179  0.6 -0.2457431 -1.1547005 -0.1496251  0.2167043
7     G    2    8 624.485966027714 0.12 -0.3432602  0.5773503  1.3134231  0.1979724
8     H    3    3 617.240970185958  0.3 -0.3107545 -0.8660254  1.2796654  0.2049969
9     I  2.5   10 293.290452379733 0.25 -0.3270073  1.1547005 -0.2297645  0.2030456
10    J    4    3 223.737383470871      -0.2782488 -0.8660254 -0.5538433 -2.7335648

最佳答案

不要用空白替换它们,而是用 NA 替换它们,以便维护类。

cols <- paste0('Var', 1:4)
mat <- sapply(df[cols], function(x) {
  mn <- mean(x, na.rm = TRUE)
  sd <- sd(x, na.rm = TRUE)
  (x > mn + sd * 2.5) | (x < mn - sd * 2.5)
})
df[cols][mat] <- NA

df
#   Subj Var1 Var2      Var3  Var4
#1     A  1.0    2 383.35261  0.50
#2     B  5.0    8 498.22071  0.10
#3     C   NA    6 272.23357 23.00
#4     D  0.1    1  70.61119  0.20
#5     E  3.0    2 649.11146  0.40
#6     F  5.0    7 198.26275  0.60
#7     G  2.0    7 413.40121  0.12
#8     H  3.0    4  77.25242  0.30
#9     I  2.5    9 588.35492  0.25
#10    J  4.0    8 222.57458    NA

数据

您创建数据集的方式将数字更改为字符,这使得对它们执行任何数学计算变得困难。我使用 type.convert 将它们更改为其原始类。

df <- type.convert(df)

关于r - 消除 R 中的异常数据点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63514682/

相关文章:

javascript - 使用 Javascript 确定字符串格式是 "May 16, 2013"还是 UNIX 时间戳

python - 如何在不丢失索引的情况下转换 pandas 中的数据框?

r - 无法为 R 中的列表替换 NA 的拼写错误

r - R中有没有一种方法可以按行和列组合不同大小的矩阵?

database - 如何将数据框保存为列表的元素,反之亦然?

python - Pyspark DataFrame - 如何使用变量进行连接?

python - Pandas 将列表列表转换为列名并附加值

r - 通过嵌套函数传递参数

python - Pandas 数据框选择列表列包含任何字符串列表的行

python - Dask Dataframe 列总和始终返回标量