r - 在大型栅格时间序列中使用 moveFun 的最有效方法是什么?

标签 r time-series raster smoothing r-raster

我必须平滑一个大的时间序列,并且我正在使用 'raster' 包中的 moveFun 函数。我根据以前的帖子测试了几个选项(请参阅下面的选项)。前 2 个工作,但在使用真实数据时非常慢(所有澳大利亚的所有 MOD13Q1 时间序列)。所以我尝试了选项 3 并失败了。如果有人可以帮助指出该功能的问题,我将不胜感激。我可以访问内存,我正在使用具有 700GB 内存的 RStudio 服务器,但我不确定什么是完成这项工作的最佳方法。提前致谢。

a) 使用movingFun 和overlay

library(raster)
r <- raster(ncol=10, nrow=10)
r[] <- runif(ncell(r))
s <- brick(r,r*r,r+2,r^5,r*3,r*5)
ptm <- proc.time()
v <- overlay(s, fun=function(x) movingFun(x, fun=mean, n=3, na.rm=TRUE, circular=TRUE)) #works
proc.time() - ptm

   user  system elapsed 
  0.140   0.016   0.982

b) 创建一个函数并使用 clusterR。我认为这会比(a)快。
fun1 = function(x) {overlay(x, fun=function(x) movingFun(x, fun=mean, n=6, na.rm=TRUE, circular=TRUE))}

beginCluster(4)
ptm <- proc.time()
v = clusterR(s, fun1, progress = "text")
proc.time() - ptm
endCluster()
   user  system elapsed 
  0.124   0.012   4.069 

c) 我找到了 this document由 Robert J. Hijmans 编写,我尝试(但失败)编写了一个小插曲中描述的函数。我无法完全遵循该功能中的所有步骤,这就是失败的原因。
smooth.fun <- function(x, filename='', smooth_n ='',...) { #x could be a stack or list of rasters
  out <- brick(x)
  big <- ! canProcessInMemory(out, 3)
  filename <- trim(filename)
  if (big & filename == '') {
    filename <- rasterTmpFile()
  }
  if (filename != '') {
    out <- writeStart(out, filename, ...)
    todisk <- TRUE
  } else {
    vv <- matrix(ncol=nrow(out), nrow=ncol(out))
    todisk <- FALSE
  }

  bs <- blockSize(out)
  pb <- pbCreate(bs$n)

  if (todisk) {
    for (i in 1:bs$n) {
      v <- getValues(out, row=bs$row[i], nrows=bs$nrows[i] )
      v <- movingFun(v, fun=mean, n=smooth_n, na.rm=TRUE, circular=TRUE)
      out <- writeValues(out, v, bs$row[i])
      pbStep(pb, i)
    }
    out <- writeStop(out)
  } else {
    for (i in 1:bs$n) {
      v <- getValues(out, row=bs$row[i], nrows=bs$nrows[i] )
      v <- movingFun(v, fun=mean, n=smooth_n, na.rm=TRUE, circular=TRUE)
      cols <- bs$row[i]:(bs$row[i]+bs$nrows[i]-1)
      vv[,cols] <- matrix(v, nrow=out@ncols)
      pbStep(pb, i)
    }
    out <- setValues(out, as.vector(vv))
  }
  pbClose(pb)
  return(out)
}

s <- smooth.fun(s, filename='test.tif', smooth_n = 6, format='GTiff', overwrite=TRUE)

 Error in .local(.Object, ...) : 
  `/path-to-dir/test.tif' does not exist in the file system,
and is not recognised as a supported dataset name.

最佳答案

这是我找到的解决方案,感谢我的同事。它在 20 分钟内计算每年(23 个文件)。可能还有需要改进的地方,但在这个阶段,我很高兴我每年只需 20 分钟就能完成这项工作。

所以在这里我使用 foreach 同时运行 5 年包裹。然后是for循环创建一个包含 6 个文件的数组;请记住,在 MOD13Q1 16 天数据集中,我需要一个 3 个月的移动窗口,即 6 个文件。然后循环使用 ColMeans 计算数组的平均值, 创建一个空栅格,将平均值分配给新栅格并保存它。请注意,我们重新创建了 circular movingFun 的选项功能。因此,第一个日期的平均值是根据同年的最后日期完成的。

require(raster)
require(rgdal)
library(foreach)
library(doParallel)

rasterOptions(maxmemory = 3e10, chunksize = 2e10)

ip <- "directory-with-grids"
op <- "directory-where-resuls-are-being-saved"

years = c(2000:2017)   

k <- 6    # moving window size
k2 <- floor((k-1)/2)
slot <- 0

# determine clusters
cl <- makeCluster(5, outfile = "") # make worker prints visible
registerDoParallel(cl)

foreach(j = 1:length(years), .packages=c("raster")) %dopar% {
  ip1 = paste(ip, years[j],sep='/')
  ndvi.files <- list.files(ip1, pattern = 'ndvi.*tif$',full.names = T) 
  nfiles <- length(ndvi.files)

  for (n in (1-(k-1)):nfiles) {
    i <- (n + k2 - 1) %% nfiles + 1
    print(ndvi.files[i])
    r <- raster(ndvi.files[i])
    if (slot == 0) {
      win <- matrix(data = NA, nrow = k, ncol = r@nrows * r@ncols)
    }
    slot <- slot %% k + 1
    win[slot,] <- getValues(r)
    if (n > 0) {
      o <- raster(extent(c(xx,xx,xx ,xx))); res(o)=c(xx,xx) # your extent and resolution
      crs(o) <-'+proj=longlat +datum=WGS84 +no_defs +ellps=WGS84 +towgs84=0,0,0'
      o[] <- colMeans(win)
      o[o<0] <- NA
      # write out m as the nth raster
      fname = paste(names(r),'smoothed',sep='_')
      out.dir =  file.path(op, paste(years[j], sep='/'))
      dir.create(out.dir,showWarnings = FALSE)
      out.path = file.path(out.dir, fname)
      writeRaster(o, out.path, format="Geotiff", overwrite=T,  datatype='INT2S')
    }
  }
}

stopCluster(cl)

关于r - 在大型栅格时间序列中使用 moveFun 的最有效方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50710845/

相关文章:

r - 按序列分割向量

r - 将 openpaths.cc API 与 R 结合使用

algorithm - 快速变化检测算法

pyspark - 在 Spark 数据框中删除连续的重复项

栅格之外的 Java getSubimage()

python - 在 Python 中根据日期值从多个 NetCDF 文件中提取栅格

r - 更改R的时间区域设置

r - 如何计算有多少子字符串与列表中的至少一个元素匹配,前提是它们前面或后面没有否定?

mysql - 即使没有该时间的条目,仍然显示正确的时间集

java - 从 ColorModel 获取 RGB 分量