当没有特定重复的列名时, reshape 为长形式

标签 r data.table reshape

我有一个以下示例数据集,我正在尝试使用 data.table 包将其 reshape 为长格式(请不要使用 dplyr 解决方案)。

test_data<-structure(list(id = c("a", "b", "c", "d"), demo_d1_alt = c(2, 
3, 4, 5), demo_d1_pre = c(5, 4, 5, 5), demo_d2_alt = c(4, 5, 
6, 7), demo_d3_alt = c(8, 9, 10, 11), demo_d3_pre = c(5, 5, 5, 
5)), .Names = c("id", "demo_d1_alt", "demo_d1_pre", "demo_d2_alt", 
"demo_d3_alt", "demo_d3_pre"), class = c("tbl_df", "tbl", "data.frame"
), row.names = c(NA, -4L))

id  demo_d1_alt demo_d1_pre demo_d2_alt demo_d3_alt demo_d3_pre
a   2   5   4   8   5
b   3   4   5   9   5
c   4   5   6   10  5
d   5   5   7   11  5

以下是我的代码和输出:

library(data.table)
data_long <- melt.data.table(
     setDT(test_data), id.vars = "id", 
     measure.vars = patterns(alt = "alt",
                             prec= "pre"))
data_long
    id variable alt prec
 1:  a        1   2    5
 2:  b        1   3    4
 3:  c        1   4    5
 4:  d        1   5    5
 5:  a        2   4    5
 6:  b        2   5    5
 7:  c        2   6    5
 8:  d        2   7    5
 9:  a        3   8   NA
10:  b        3   9   NA
11:  c        3  10   NA
12:  d        3  11   NA

我的预期输出是(因为只有 demo_d2 没有 prec)

data_long
    id variable alt prec
 1:  a        1   2    5
 2:  b        1   3    4
 3:  c        1   4    5
 4:  d        1   5    5
 5:  a        2   4    NA
 6:  b        2   5    NA
 7:  c        2   6    NA
 8:  d        2   7    NA
 9:  a        3   8   5
10:  b        3   9   5
11:  c        3  10   5
12:  d        3  11   5

请提出建议。

最佳答案

目前,大多数 R 方法并不能很好地处理这些类型的不平衡数据集,而是要求您首先将数据转换为“长”格式,进行一些转换,然后再恢复为“宽”格式。为此,我编写了 merged.stack 函数作为我的“splitstackshape”包的一部分,如此命名是因为它首先将 stack 相关的数据列放入 列出,然后将它们合并在一起。

该方法类似于:

library(splitstackshape)
merged.stack(test_data, var.stubs = c("_alt", "_pre"), sep = "var.stubs", atStart = FALSE)
#     id .time_1 _alt _pre
#  1:  a demo_d1    2    5
#  2:  a demo_d2    4   NA
#  3:  a demo_d3    8    5
#  4:  b demo_d1    3    4
#  5:  b demo_d2    5   NA
#  6:  b demo_d3    9    5
#  7:  c demo_d1    4    5
#  8:  c demo_d2    6   NA
#  9:  c demo_d3   10    5
# 10:  d demo_d1    5    5
# 11:  d demo_d2    7   NA
# 12:  d demo_d3   11    5

但是,随着“data.table”为 melt 带来的改进,重新审视该方法是有意义的。

工作草案可以在 here 找到,您可以通过以下方式加载相关功能:

source("https://gist.githubusercontent.com/mrdwab/ceded54b616bdc61cb0f/raw/c5a583267f8682a5afea1b551347eafdab618471/MELT.R")

用法很简单:指定数据集、 stub 以及 stub 是位于变量名称的开头还是结尾。

library(data.table)
ReshapeLong_(test_data, stubs = c(alt = "_alt", pre = "_pre"), end_stub = TRUE)
#     id variable alt pre
#  1:  a  demo_d1   2   5
#  2:  b  demo_d1   3   4
#  3:  c  demo_d1   4   5
#  4:  d  demo_d1   5   5
#  5:  a  demo_d2   4  NA
#  6:  b  demo_d2   5  NA
#  7:  c  demo_d2   6  NA
#  8:  d  demo_d2   7  NA
#  9:  a  demo_d3   8   5
# 10:  b  demo_d3   9   5
# 11:  c  demo_d3  10   5
# 12:  d  demo_d3  11   5

关于当没有特定重复的列名时, reshape 为长形式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49002855/

相关文章:

r - data.table 中的 `unstack()` 相当于什么?

r - 塑造数据并影响 R 中的计数列

python - 将数组 reshape 为方形数组Python

r - 基于 r 中的多列仅选择重复项

r - 依赖于使用插入符号进行预处理的单个袋装树模型的预测

r - 绘制多个图的平均值的图

data.frame 和 data.table 的 R 对象具有相同的类型?

r - 根据 data.table 中列值的优先级选择组中的行

python - reshape 只有一维的numpy数组

r - 对于数据帧行的直方图,“x”必须是数字