performance - 如何使用 data.table 提高当前使用 ddply 的数据清理代码的性能?

标签 performance r data.table plyr

我正在尝试使用 ddply 清理数据,但它在 130 万行上运行速度非常慢。

示例代码:

#Create Sample Data Frame
num_rows <- 10000
df <- data.frame(id=sample(1:20, num_rows, replace=T), 
                Consumption=sample(-20:20, num_rows, replace=T), 
                StartDate=as.Date(sample(15000:15020, num_rows, replace=T), origin = "1970-01-01"))
df$EndDate <- df$StartDate + 90
#df <- df[order(df$id, df$StartDate, df$Consumption),]
#Are values negative? 
# Needed for subsetting in ddply rows with same positive and negative values
df$Neg <- ifelse(df$Consumption < 0, -1, 1)
df$Consumption <- abs(df$Consumption)

我编写了一个函数来删除其中一行中的消耗值与另一行中的消耗值相同但为负的行(对于相同的 id)。

#Remove rows from a data frame where there is an equal but opposite consumption value
#Should ensure only one negative value is removed for each positive one. 
clean_negatives <- function(x3){
  copies <- abs(sum(x3$Neg))
  sgn <- ifelse(sum(x3$Neg) <0, -1, 1) 
  x3 <- x3[0:copies,]
  x3$Consumption <- sgn*x3$Consumption
  x3$Neg <- NULL
  x3}

然后我使用 ddply 应用该函数来删除数据中的这些错误行

ptm <- proc.time()
df_cleaned <- ddply(df, .(id,StartDate, EndDate, Consumption),
                    function(x){clean_negatives(x)})
proc.time() - ptm

我希望我可以使用 data.table 来加快速度,但我不知道如何使用 data.table 来提供帮助。

有 130 万行,到目前为止,我的桌面需要一整天的时间来计算,但仍未完成。

最佳答案

您的问题是关于data.table 实现的。所以,我在这里展示了它。您的功能也可以大大简化。您可以先通过求和 Neg 得到 sign 然后过滤表格然后将 Consumption 乘以 sign (如下所示)。

require(data.table)
# get the data.table in dt
dt <- data.table(df, key = c("id", "StartDate", "EndDate", "Consumption"))
# first obtain the sign directly
dt <- dt[, sign := sign(sum(Neg)), by = c("id", "StartDate", "EndDate", "Consumption")]
# then filter by abs(sum(Neg))
dt.fil <- dt[, .SD[seq_len(abs(sum(Neg)))], by = c("id", "StartDate", "EndDate", "Consumption")]
# modifying for final output (line commented after Statquant's comment
# dt.fil$Consumption <- dt.fil$Consumption * dt.fil$sign
dt.fil[, Consumption := (Consumption*sign)]
dt.fil <- subset(dt.fil, select=-c(Neg, sign))

基准测试

  • 百万行数据:

    #Create Sample Data Frame
    num_rows <- 1e6
    df <- data.frame(id=sample(1:20, num_rows, replace=T), 
                    Consumption=sample(-20:20, num_rows, replace=T), 
                    StartDate=as.Date(sample(15000:15020, num_rows, replace=T), origin = "1970-01-01"))
    df$EndDate <- df$StartDate + 90
    df$Neg <- ifelse(df$Consumption < 0, -1, 1)
    df$Consumption <- abs(df$Consumption)
    
  • data.table 函数:

    FUN.DT <- function() {
        require(data.table)
        dt <- data.table(df, key=c("id", "StartDate", "EndDate", "Consumption"))
        dt <- dt[, sign := sign(sum(Neg)), 
                   by = c("id", "StartDate", "EndDate", "Consumption")]
        dt.fil <- dt[, .SD[seq_len(abs(sum(Neg)))], 
                   by=c("id", "StartDate", "EndDate", "Consumption")]
        dt.fil[, Consumption := (Consumption*sign)]
        dt.fil <- subset(dt.fil, select=-c(Neg, sign))
    }
    
  • 你的函数与 ddply

    FUN.PLYR <- function() {
        require(plyr)
        clean_negatives <- function(x3) {
            copies <- abs(sum(x3$Neg))
            sgn <- ifelse(sum(x3$Neg) <0, -1, 1) 
            x3 <- x3[0:copies,]
            x3$Consumption <- sgn*x3$Consumption
            x3$Neg <- NULL
            x3
        }
        df_cleaned <- ddply(df, .(id, StartDate, EndDate, Consumption), 
                               function(x) clean_negatives(x))
    }
    
  • 使用 rbenchmark 进行基准测试(仅运行 1 次)

    require(rbenchmark)
    benchmark(FUN.DT(), FUN.PLYR(), replications = 1, order = "elapsed")
    
            test replications elapsed relative user.self sys.self user.child sys.child
    1   FUN.DT()            1   6.137    1.000     5.926    0.211          0         0
    2 FUN.PLYR()            1 242.268   39.477   152.855    82.881         0         0
    

我的 data.table 实现比您当前的 plyr 实现快大约 39 倍(我将我的实现与您的实现进行比较,因为功能不同)。

注意:我在函数内加载包是为了获得完整的时间来获取结果。此外,出于同样的原因,我将 data.frame 转换为 data.table,并在基准测试函数中添加了键。因此,这是最小的加速。

关于performance - 如何使用 data.table 提高当前使用 ddply 的数据清理代码的性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14453041/

相关文章:

java - 数组的特定元素匹配多个条件并返回 boolean 值

r - Bookdown:导出到 Word 文档(文件 2[[格式]] 中的错误:尝试在 get1index 中选择少于一个元素)

r - R 中的类表达式。其中元素的使用

r - 如何在 data.table 中进行更快的列表列操作

r - 如何删除匹配条件的行和与其相邻的行

r - 将strptime函数应用于data.table的每个成员

sql-server - SQL Server - JOIN 未在 Entity Framework 生成的查询中使用最佳顺序

performance - 保留历史记录和当前概览

r - 如何在 R 中的同一个图中放置多个箱线图?

iphone - UITableView reloadData 多次导致内存泄漏并减慢应用程序