大数据 reshape

我有一个包含 100 个变量和 400,000 个事务的大型数据集。这是一个示例数据:

a <- structure(list(ID = c("A1", "A2", "A3", "A1", "A1", "A2", "A4", "A5", "A2", "A3"), 
Type = c("A", "B", "C", "A", "A", "A", "B", "B", "C", "B"), 
Alc = c("E", "F", "G", "E", "E", "E", "F", "F", "F", "F"), 
Com = c("Y", "N", "Y", "N", "Y", "Y", "Y", "N", "N", "Y")),
.Names = c("ID", "Type", "Alc", "Com"), row.names = c(NA, -10L), class = "data.frame")
a

   ID Type Alc Com
1  A1    A   E   Y
2  A2    B   F   N
3  A3    C   G   Y
4  A1    A   E   N
5  A1    A   E   Y
6  A2    A   E   Y
7  A4    B   F   Y
8  A5    B   F   N
9  A2    C   F   N
10 A3    B   F   Y

我喜欢这样获取数据集:

ID      Type_A  Type_B  Type_C  Alc_E   Alc_F   Alc_G   Com_Y   Com_N
A1           3      0        0      3       0       0       2       1
A2           1      1        1      1       2       0       1       2
A3           0      1        1      0       1       1       2       0
A4           0      1        0      0       1       0       1       0
A5           0      1        0      0       1       0       0       1

我正在使用“reshape2”包中的“dcast”函数。但是结果不符合我的要求。

提前致谢。

最佳答案

假设您的 data.frame 是 DF:

require(reshape2)
dcast(melt(DF, id.var=c("ID")), ID ~ variable + value, value.var="value")

Aggregation function missing: defaulting to length
  ID Type_A Type_B Type_C Alc_E Alc_F Alc_G Com_N Com_Y
1 A1      3      0      0     3     0     0     1     2
2 A2      1      1      1     1     2     0     2     1
3 A3      0      1      1     0     1     1     0     2
4 A4      0      1      0     0     1     0     0     1
5 A5      0      1      0     0     1     0     1     0

关于大数据 reshape ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17797261/

上一篇：tmux - 如何绑定(bind)一个键以切换到最后一个 Pane ，或者如果没有 Pane ，最后一个窗口？

下一篇：r - 修改函数以便控制流构造使用 `{...}` 并在正确的位置保留注释

相关文章：

使用降雪和 sfLapply 在 R 中栅格化多边形

python - 如何从数组数组中创建一个 numpy 数组？

从宽到长 reshape 数据，在 `varying` 中保留变量顺序

r - 带有滚动连接的 data.table 计算平均日期条件

python - 如何将一个添加到矩阵？

MATLAB vec2mat 的 Python 等效代码

r - 收集多组列

r - 如何在 dplyr mutate 中使用由列遮蔽的变量

r - 在 Rcpp 中通过 lapply 使用具有多个参数的函数

r - Axis 标签未显示