r - 在 R 中处理大量数据和大量栅格？

G'day，我正在处理一个包含约 125,000 个 lon/lat 位置和日期的大型数据集，用于物种存在/不存在记录。对于每个位置，我想计算出每个位置在日期和日期前 3 个月期间的天气情况。为了做到这一点，我已经下载了 5 年期间给定天气变量(例如，最高温度)的每日天气数据。我总共有 1,826 个光栅文件，都在 2-3mb 之间。

我计划堆叠所有光栅文件，然后从每个光栅 (1,826) 中为每个点提取一个值。这会产生一个巨大的文件，我可以用它来搜索我需要的日期。但是，这是不可能的，因为我无法堆叠那么多栅格。我尝试将栅格分成 500 个堆栈，这是有效的，但它生成的文件大约为 1Gb 并且非常慢(行，125,000；列，500)。此外，当我尝试将所有这些文件带入 R 以创建大数据框时，它不起作用。

我想知道是否有办法在 R 中处理如此大量的数据，或者是否有我可以使用的包来提供帮助。我可以使用像ff这样的包吗？有没有人有任何建议，建议采用一种功耗较低的方法来做我想做的事情？我想过像 lapply 函数这样的东西，但以前从未使用过，也不确定从哪里开始。

任何帮助都会非常好，提前感谢您的时间。我目前使用但没有成功的代码如下。

亲切的问候，
亚当

library(raster)
library(rgdal)
library (maptools)
library(shapefiles)

# To create weather data files, first set the working directory to the appropriate location (i.e., maxt)
# list of raster weather files
files<- list.files(getwd(), pattern='asc')
length(files)

memory.size(4000)  
memory.limit(4000)

# read in lon/lat data
X<-read.table(file.choose(), header=TRUE, sep=',')
SP<- SpatialPoints(cbind(X$lon, X$lat)) 

#separate stacks into mannageable sizes
s1<- stack(files[1:500])
i1 <- extract( s1,SP, cellnumbers = True, layer = 1, nl = 500)
write.table(i1, file="maxt_vals_all_points_all_dates_1.csv", sep=",", row.names= FALSE, col.names= TRUE)
rm(s1,i1)
s2<- stack(files[501:1000])
i2 <- extract( s2,SP, cellnumbers = True, layer = 1, nl = 500)
write.table(i2, file="maxt_vals_all_points_all_dates_2.csv", sep=",", row.names= FALSE, col.names= TRUE)
rm(s2,i2)
s3<- stack(files[1001:1500])
i3 <- extract( s3,SP, cellnumbers = True, layer = 1, nl = 500)
write.table(i3, file="maxt_vals_all_points_all_dates_3.csv", sep=",", row.names= FALSE, col.names= TRUE)
rm(s3,i3)
s4<- stack(files[1501:1826])
i4 <- extract( s4,SP, cellnumbers = True, layer = 1, nl =325)
write.table(i4, file="maxt_vals_all_points_all_dates_4.csv", sep=",", row.names= FALSE, col.names= TRUE)
rm(s4,i4)

# read files back in to bind into final file !!! NOT WORKING FILES ARE TOO BIG!!
i1<-read.table(file.choose(),header=TRUE,sep=',')
i2<-read.table(file.choose(),header=TRUE,sep=',')
i3<-read.table(file.choose(),header=TRUE,sep=',')
i4<-read.table(file.choose(),header=TRUE,sep=',')

vals<-data.frame(X, i1, i2, i3 ,i4)
write.table(vals, file="maxt_master_lookup.csv", sep=",", row.names= FALSE, col.names= TRUE)

最佳答案

我会一次提取一个光栅文件，然后将结果附加到文件中。

我欺骗了制作矩阵列表，但是由于光栅可以采用文件名或矩阵(除其他外)，并且您可以在字符向量上使用“[[”进行索引，它在您的情况下应该几乎相同。

files <- list(volcano, volcano * 2, volcano * 3)
library(sp)
SP <- SpatialPoints(structure(c(0.455921585146703, 0.237608166502031, 0.397704673508124, 0.678393354622703, 0.342820219769366, 0.554888036966903, 0.777351335399613, 0.654684656824567), .Dim = c(4L, 2L)))

library(raster)
for (i in seq_len(length(files))) {

    r <- raster(files[[i]])
    e <- extract(r, SP)
    ## print(e)  ## print for debugging
    write.table(data.frame(file = i, extract = e),"cellSummary.csv", col.names = i == 1, append = i > 1, sep = ",", row.names = FALSE)
}

关于r - 在 R 中处理大量数据和大量栅格？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10050611/

r - 在 R 中处理大量数据和大量栅格？

上一篇：continuous-integration - 哪些构建服务器可以与 NAT 后面的工作人员一起工作？

下一篇：windows-phone-7.1 - Windows Phone - PhotoChooserTask 未显示