r - R 中最快的 Tall-Wide 旋转

我正在处理一个简单的表格

date         variable   value
1970-01-01   V1         0.434
1970-01-01   V2         12.12
1970-01-01   V3         921.1
1970-01-02   V1         -1.10
1970-01-03   V3         0.000
1970-01-03   V5         312e6
...          ...        ...

对(日期、变量)是唯一的。我想把这张表改成宽表。

date         V1         V2         V3         V4         V5        
1970-01-01   0.434      12.12      921.1      NA         NA
1970-01-02   -1.10      NA         NA         NA         NA
1970-01-03   0.000      NA         NA         NA         312e6

而且我想以尽可能快的方式进行，因为我必须对具有 1e6 条记录的表重复重复该操作。在 R 原生模式下，我相信 tapply()、reshape() 和 d*ply() 都在速度方面由 数据表。我想针对基于 sqlite 的解决方案(或其他数据库)测试后者的性能。这是以前做过的吗？有性能提升吗？而且，当“宽”字段(日期)的数量可变且事先未知时，如何在 sqlite 中将高转换为宽？

最佳答案

我使用的方法基于 tapply 所做的事情，但速度快了一个数量级(主要是因为没有每个单元格的函数调用)。

使用 Prasad 帖子中的 tall 的时间:

pivot = function(col, row, value) {
  col = as.factor(col)
  row = as.factor(row)
  mat = array(dim = c(nlevels(row), nlevels(col)), dimnames = list(levels(row), levels(col)))
  mat[(as.integer(col) - 1L) * nlevels(row) + as.integer(row)] = value
  mat
}

> system.time( replicate(100, wide <- with(tall, tapply( value, list(dt,tkr), identity))))
   user  system elapsed 
  11.31    0.03   11.36 

> system.time( replicate(100, wide <- with(tall, pivot(tkr, dt, value))))
   user  system elapsed 
    0.9     0.0     0.9

关于排序可能出现的问题，应该没有问题:

> a <- with(tall, pivot(tkr, dt, value))
> b <- with(tall[sample(nrow(tall)), ], pivot(tkr, dt, value))
> all.equal(a, b)
[1] TRUE

关于r - R 中最快的 Tall-Wide 旋转，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5307313/

r - R 中最快的 Tall-Wide 旋转

上一篇：安卓:sqlite:游标:getColumnIndex

下一篇：android - Android Lollipop 上的 IntelliJ SQLite 权限被拒绝，之前工作过