r - 创建一个非正统的虚拟变量

标签 r dataframe dummy-variable

我需要创建一些非正统的虚拟变量,但遇到了一些麻烦。基本上在我的数据集中,每个老师都可以教授多个类(class)。我正在构建一个多级数据集,因此存在重复的教师 ID 是可以的。

这是一个数据示例:

#generate data
teacher.id <- c(1:5, 1:5)
class.taught <- c("ELA", "Math", "Science", "ELA", "Math", "Science", "Math", "ELA", "ELA", "Math")

# combine into data frame
dat <- data.frame(teacher.id, class.taught)

如您所见,ID 为 1 和 3 的教师都教授 2 个不同的类(class)。

创建虚拟变量的传统方法产生:

# example of what I have done so far 
dat$teach.ELA <- ifelse(dat$class.taught == "ELA", 1, 0 )
dat$teach.MATH <- ifelse(dat$class.taught == "Math", 1, 0 )
dat$teach.SCIENCE <- ifelse(dat$class.taught == "Science", 1, 0 )
dat

但是,我希望新的虚拟变量看起来像这样:

desired.ELA <- c(1,0,1,1,0,1,0,1,1,0)
desired.MATH <- c(0,1,0,0,1,0,1,0,0,1)
desired.SCIENCE <- c(1,0,1,0,0,1,0,1,0,0)
dat.2 <- data.frame(dat, desired.ELA, desired.MATH, desired.SCIENCE)
dat.2

我的直觉是我需要循环遍历 ID 来创建这些 ID,但除此之外我真的看不到实现我想要的东西的途径。

最佳答案

这是一个基本的 R 方法。这个想法是为每位教师创建虚拟模型,然后将它们合并到原始数据中:

# get dummies for each teacher
temp <- as.data.frame(with(dat, table(teacher.id, class.taught) > 0))
temp$teacher.id <- as.integer(row.names(temp))

# merge onto dataset
merge(dat, temp, by="teacher.id")

如果它真的困扰您,您可以将逻辑值强制转换为整数,但 R 会为您完成所有这些工作。

关于r - 创建一个非正统的虚拟变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37446473/

相关文章:

r - Shinydashboard 一些 Font Awesome 图标不起作用

Python Pandas 数据帧 : How to process a column consisting of dicts into multiple columns determined by the keys of the dicts?

r - 一种更优雅的方式,将两个向量组合为单独的列(或数据帧),匹配行,并在不匹配的地方具有 NA

R - 将向量/数据帧中的所有值与另一个数据帧中的值进行比较以进行过滤

python - 使用python创建多列的虚拟变量

linux - 将 R 从 3.02 更新到 3.2

r - Caret 包中的用户定义指标

限制R中绘图中水平线的长度

python Pandas : create a new column for each different value of a source column (with boolean output as column values)

python - pandas - 多个 'yes/no' 虚拟变量