按比例随机将 NAn 插入数据帧

标签 r dataframe na missing-data

我有一个完整的数据框。我想用 NA 替换数据框中 20% 的值来模拟随机丢失的数据。

A <- c(1:10)
B <- c(11:20)
C <- c(21:30)
df<- data.frame(A,B,C)

任何人都可以建议一种快速的方法吗?

最佳答案

df <- data.frame(A = 1:10, B = 11:20, c = 21:30)
head(df)
##   A  B  c
## 1 1 11 21
## 2 2 12 22
## 3 3 13 23
## 4 4 14 24
## 5 5 15 25
## 6 6 16 26

as.data.frame(lapply(df, function(cc) cc[ sample(c(TRUE, NA), prob = c(0.85, 0.15), size = length(cc), replace = TRUE) ]))
##     A  B  c
## 1   1 11 21
## 2   2 12 22
## 3   3 13 23
## 4   4 14 24
## 5   5 NA 25
## 6   6 16 26
## 7  NA 17 27
## 8   8 18 28
## 9   9 19 29
## 10 10 20 30

这是一个随机过程,因此可能不会每次都给出 15%。

关于按比例随机将 NAn 插入数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27454265/

相关文章:

r - 找到三个或更多连续的负数并从数据框中删除行

r - 解决 a[b] 可能返回不同长度向量的问题的有效方法是什么?

r - 在每个组的分类 x 轴内叠加 geom_line - ggplot2

python - 如何根据列到值的映射为 DataFrame 赋值?

r - R 中缺失值的线性插值

在不使用 list() 的情况下,在 dplyr 中将 NA 替换为零

python - 如何有条件地将子字符串复制到 Pandas 数据框的新列中?

python - Pandas 中从列值创建排序列表的有效且最快的方法

r - pmatch 函数的属性

string - Pandas 数据框用NaN替换空白