我有一些关于街道的数据,我运行了这个 R 代码来获取列表中 38 个 csv 文件的内容(将来会添加更多文件):
common_path <- "0_data/source_data/DB/Speed/"
csv_files <- list.files(
path = common_path, # directory to search within
pattern = ".*(1|2).*csv$", #
recursive = TRUE, # search subdirectories
full.names = TRUE # return the full path
)
data_lst = lapply(csv_files, read.csv2)
他们的头看起来像这样:
这是可重现格式的数据帧的头部:
structure(list(typ = c(100L, 100L, 100L, 100L, 100L, 100L, 100L,
100L, 100L, 1L, 1L, 1L, 1L, 1L, 1L), date.and.time = structure(c(1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 3L, 4L, 5L, 6L, 7L), .Label = c("2019/11/07 18:07:27.000",
"2019/11/07 18:07:36.290", "2019/11/07 18:07:40.030", "2019/11/07 18:07:41.930",
"2019/11/07 18:07:43.720", "2019/11/07 18:07:46.380", "2019/11/07 18:07:54.010"
), class = "factor"), speed..km.h. = c(NA, NA, NA, NA, NA, NA,
NA, NA, NA, 42L, 44L, 43L, 42L, 41L, 43L), length..m. = c(NA,
NA, NA, NA, NA, NA, NA, NA, NA, 3.2, 4.2, 3.2, 3.9, 3.7, 3.2),
range..m. = c(NA, NA, NA, NA, NA, NA, NA, NA, NA, 0L, 0L,
0L, 0L, 0L, 0L), notes = c("Serial No = 1", "Direction = NORTH",
"Counting type = SINGLE LANE", "Ref count sense = IN", "Install height = 42 decimeter",
"Axis distance = 58 decimeter", "Road type = STANDARD", "Road slope = FLAT",
"Start of campain", "", "", "", "", "", "")), row.names = c("1",
"2", "3", "4", "5", "6", "7", "8", "9", "10", "11", "12", "13",
"14", "15"), class = "data.frame")
我想做的是:
获取“注释”列前9行的信息
将“注释”列中的信息添加为单独的变量
之后删除前 9 行或基本上所有行 列“typ”== 100
我可以毫无问题地对列表中的对象手动执行此操作,如下面的代码所示:
data_lst[[1]]$serial <- data_lst[[1]]$notes[1]
data_lst[[1]]$direction <- data_lst[[1]]$notes[2]
data_lst[[1]]$lane <- data_lst[[1]]$notes[3]
data_lst[[1]]$install_height <- data_lst[[1]]$notes[5]
data_lst[[1]]$axis <- data_lst[[1]]$notes[6]
data_lst[[1]]$notes <- NULL
data_lst[[1]] <- data_lst[[1]][-c(1:9),]
但是当我尝试循环这个过程时就会出现问题,因为我对循环非常缺乏经验。我做了这样的事情,
for(i in data_lst){
data_lst[[i]]$serial <- data_lst[[i]]$notes[1]
}
从我的数据中获取“串行”信息,但我收到此错误:
error:
in data_lst[[i]] : invalid subscript type 'list'
热烈欢迎任何帮助:)
最佳答案
如果您想对列表中的每个条目执行相当复杂的操作,最好通过编写函数来分离出您希望应用于每个条目的逻辑。这使您的代码更具可读性、更模块化,并且将来更容易调试或修改。
在您的情况下,您可以编写一个函数来操作列表中的每个数据框,以创建不同组件的命名列表:您想要的所有命名注释,加上修改后的数据框。也许是这样的:
change_data_frame_to_named_list <- function(old_frame)
{
return(list(serial = old_frame$notes[1],
direction = old_frame$notes[2],
lane = old_frame$notes[3],
install_height = old_frame$notes[5],
xaxis = old_frame$notes[6],
data = old_frame[-which(old_frame$type == 100), -6]
))
}
现在您所要做的就是将此函数应用于列表中的所有元素。在 R 中执行此操作的最惯用方法是根本不使用循环,而是使用 lapply(list apply 的缩写)。这将列表作为第一个参数,将您希望应用于每个元素的函数作为第二个参数。
这意味着您可以这样做:
result <- lapply(data_lst, change_data_frame_to_named_list)
这相当于循环版本,但更短、更整洁。
如果您确实想将其作为循环执行,则等效内容是:
result <- list()
for (i in seq_along(data_lst))
{
result[[i]] = change_data_frame_to_named_list(data_lst[[i]])
}
无论哪种情况,变量result
都是一个与data_lst
长度相同的列表,其中每个条目本身就是一个命名列表,包含新的数据框及其关联的命名注释。
编辑
OP 请求了一种类似的方法,以他已经用手写循环制作的格式返回数据。以下是如何实现这一点。由于逻辑被分离到函数中,我们只需要更改函数本身:
change_data_frame <- function(old_frame)
{
old_frame$serial <- old_frame$notes[1]
old_frame$direction <- old_frame$notes[2]
old_frame$lane <- old_frame$notes[3]
old_frame$install_height <- old_frame$notes[5]
old_frame$xaxis <- old_frame$notes[6]
old_frame$notes <- NULL
return(old_frame[-which(old_frame$typ == 100),])
}
# Now you just do as you did before
result <- lapply(data_lst, change_data_frame)
# and to get all dfs into one big data frame...
do.call("rbind", result)
关于r - 迭代/循环列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59748676/