用行值替换变量名,反之亦然

标签 r dplyr

我有不寻常格式的数据。变量名/列标题应该是当前行值,行值应该是变量名/列标题。

也就是说,我有这样一个数据框:

id <- seq(1, 5, 1)
good <- c('', 'Q4', 'Q4, Q2', '', '')
ok <- c('Q3, Q1', '', '', 'Q2', '')
bad <- c('', 'Q2', 'Q2', '', '')

data <- as.data.frame(cbind(id, good, ok, bad))
cols <- c('good', 'ok', 'bad')
data[cols] <- lapply(data[cols], as.character)

我想将它转换成如下所示的数据框:

id <- seq(1,5,1)
Q1 <- c('ok', '', '', '', '')
Q2 <- c('', 'bad', 'good, bad', 'ok', '') # Yes, it is possible to get multiple, 
# conflicting responses to a question from one id.
Q3 <- c('ok', '', '', '', '')
Q4 <- c('', 'good', 'good', '', '')

data_new <- as.data.frame(cbind(id, Q1, Q2, Q3, Q4))
cols <- c('Q1', 'Q2', 'Q3', 'Q4')
data_new[cols] <- lapply(data_new[cols], as.character)

一些问题:

  • 当前行值是什么不能直接转置到列标题,因为有时多个条目记录在一个单元格中,列标题中应该只记录一个值(例如,我不不想在更新的数据框中标有“Q2,Q4”的列标题)。

  • 另一方面,当列标题移动成为行值时,将 有时需要在同一个单元格中有多个条目。例如,id 3 的变量 Q2 下的条目在更新后的数据框中应显示为“好,坏”。

首选 dplyr 解决方案,但也欢迎使用其他包/基础 R 的答案。

最佳答案

这是使用gather/spread 的一种方法。我们收集从'wide'到'long'的数据,过滤基于'val'中的空白元素的行,通过在分隔符处拆分来扩展数据( ,) in 'val', 按'id', 'val'分组,粘贴 'key'的元素并传播回“宽”格式

library(tidyverse)
data %>%
   gather(key, val, -id) %>% 
   filter(val != "") %>% 
   separate_rows(val) %>% 
   group_by(id = factor(id, levels = 1:5), val) %>% 
   summarise(key = toString(key)) %>%
   spread(val, key, fill = "", drop = FALSE)
# A tibble: 5 x 5
# Groups:   id [5]
#  id    Q1    Q2        Q3    Q4   
#  <fct> <chr> <chr>     <chr> <chr>
#1 1     ok    ""        ok    ""   
#2 2     ""    bad       ""    good 
#3 3     ""    good, bad ""    good 
#4 4     ""    ok        ""    ""   
#5 5     ""    ""        ""    ""   

注意:该格式基于tibbleprint 格式。如果我们要改成data.frame,在最后使用as.data.frame

关于用行值替换变量名,反之亦然,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53112363/

相关文章:

r - case_when 在 dplyr R 中有多个条件

file - 将 p 值写入 R 中的文件

r - 通过 sapply() 或 lapply() 将多个对象传递到一个函数中,同时在函数内部保持 substitute() 的功能

r - Dplyr - 使用其他动态命名的变量改变动态命名的变量

r - 使用 assign() 函数将列名分配给 R 中的空数据框

r - dplyr piping 产生与使用相同代码的基本 R 语法不同的结果

r - dplyr 0.7.0 tidyeval 包

r - geosphere distHaversine() & dplyr - 向量的错误长度错误,应该是 2

r - 将多个图合并为循环颜色,每个图按数据框中的不同列进行着色

R DPLYR 按组计数值