r - 加速时间序列模拟(用于引导)

标签 r time-series statistics-bootstrap

我需要在具有非标准依赖性的时间序列上运行 Bootstrap 。因此,为此,我需要创建一个函数,通过逐时调整来模拟时间序列。

testing<-function(){
  sampleData<-as.zoo(data.frame(index=1:1000,vol=(rnorm(1000))^2,x=NA))
  sampleData[,"x"]<-sampleData[,"vol"]+rnorm(1000) #treat this is completely exognenous and unknown in connection to vol
  sampleData<-cbind(sampleData,mean=rollmean(sampleData[,"vol"],k=3,align="right"))
  sampleData<-cbind(sampleData,vol1=lag(sampleData[,"vol"],k=-1),x1=lag(sampleData[,"x"],k=-1),mean1=lag(sampleData[,"mean"],k=-1))

  #get estimate
  mod<-lm(vol~vol1+x1+mean1,data=sampleData)

  res<-mod$residuals

  for(i in 5:1000){
    #recursively estimate
    sampleData[i,"vol"]<-as.numeric(predict(mod,newdata=data.frame(sampleData[i-1,])))+res[i-3]

    #now must update other paramaters
      #first our rolled average
      sampleData[i,"mean"]<-mean(sampleData[(i-3):i,"vol"])

      #reupdate our lagged variables
      sampleData[i,"vol1"]<-sampleData[i-1,"vol"]
      sampleData[i,"mean1"]<-sampleData[i-1,"mean"]

  }

  lm(vol~vol1+x1+mean1,data=sampleData)
}

当我运行这段代码并测量我得到的运行时间时

system.time(testing())
user  system elapsed 
2.711   0.201   2.915 

这对我来说是个小问题,因为我将整合这段代码来构建 Bootstrap 。这意味着每一步在这里花费的任何时间都会乘以大约 100。我正在更新它几千次。这意味着单次运行将需要数小时(到数天)才能运行。

有什么方法可以加快这段代码的速度吗?

亲切的问候,

马修

最佳答案

下面介绍如何避免 predict.lm 的开销。另请注意,我使用了矩阵而不是动物园对象,这会稍微慢一点。您可以看到这会减慢您的代码速度。这是您为方便而付出的代价。

testing.jmu <- function() {
  if(!require(xts)) stop("xts package not installed")
  set.seed(21)  # for reproducibility
  sampleData <- .xts(data.frame(vol=(rnorm(1000))^2,x=NA), 1:1000)
  sampleData$x <- sampleData$vol+rnorm(1000)
  sampleData$mean <- rollmean(sampleData$vol, k=3, align="right")
  sampleData$vol1 <- lag(sampleData$vol,k=1)
  sampleData$x1 <- lag(sampleData$x,k=1)
  sampleData$mean1 <- lag(sampleData$mean,k=1)

  sampleMatrix <- na.omit(cbind(as.matrix(sampleData),constant=1))
  mod.fit <- lm.fit(sampleMatrix[,c("constant","vol1","x1","mean1")],
                    sampleMatrix[,"vol"])
  res.fit <- mod.fit$residuals

  for(i in 5:nrow(sampleMatrix)){
    sampleMatrix[i,"vol"] <-
      sum(sampleMatrix[i-1,c("constant","vol1","x1","mean1")] *
          mod.fit$coefficients)+res.fit[i-3]
    sampleMatrix[i,"mean"] <- mean(sampleMatrix[(i-3):i,"vol"])
    sampleMatrix[i,c("vol1","mean1")] <- sampleMatrix[i-1,c("vol","mean")]
  }

  lm.fit(sampleMatrix[,c("constant","vol1","x1","mean1")], sampleMatrix[,"vol"])
}
system.time(out <- testing.jmu())
#    user  system elapsed 
#    0.05    0.00    0.05 
coef(out)
#    constant        vol1          x1       mean1 
#  1.08787779 -0.06487441  0.03416802 -0.02757601

set.seed(21) 调用添加到您的函数中,您会看到我的函数返回与您的函数相同的系数。

关于r - 加速时间序列模拟(用于引导),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12059227/

相关文章:

mysql - 如何将带有 like 子句的 SQL 内连接转换为 dplyr 工作流程?

r - 大型数据集上的 R 中的 hclust()

r - 使用 autoplot 和 ggplot 更改每个时间序列的线型/宽度

r - R 中的分层 Bootstrapping >25 层

r - 更正(或引导)两阶段 glm 的标准错误(下标越界)

r - 为什么 mutate() 和 add_column() 不接受相同的基本参数?

r - 如何使用 R "readLines"命令从大文件中读取选定的行并将它们写入数据框?

python - 将 PySpark 数据框重新采样从几个月到几周

r - 手动计算ACF

r - R中索引矩阵的快速(er)方法