r - 迭代/循环列表

我有一些关于街道的数据，我运行了这个 R 代码来获取列表中 38 个 csv 文件的内容(将来会添加更多文件):

    common_path  <- "0_data/source_data/DB/Speed/"
    csv_files <- list.files(
    path = common_path,        # directory to search within
    pattern = ".*(1|2).*csv$", # 
    recursive = TRUE,          # search subdirectories
    full.names = TRUE          # return the full path
    )
    data_lst = lapply(csv_files, read.csv2)

他们的头看起来像这样:

Data Example

这是可重现格式的数据帧的头部:

structure(list(typ = c(100L, 100L, 100L, 100L, 100L, 100L, 100L, 
100L, 100L, 1L, 1L, 1L, 1L, 1L, 1L), date.and.time = structure(c(1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 3L, 4L, 5L, 6L, 7L), .Label = c("2019/11/07 18:07:27.000", 
"2019/11/07 18:07:36.290", "2019/11/07 18:07:40.030", "2019/11/07 18:07:41.930", 
"2019/11/07 18:07:43.720", "2019/11/07 18:07:46.380", "2019/11/07 18:07:54.010"
), class = "factor"), speed..km.h. = c(NA, NA, NA, NA, NA, NA, 
NA, NA, NA, 42L, 44L, 43L, 42L, 41L, 43L), length..m. = c(NA, 
NA, NA, NA, NA, NA, NA, NA, NA, 3.2, 4.2, 3.2, 3.9, 3.7, 3.2), 
    range..m. = c(NA, NA, NA, NA, NA, NA, NA, NA, NA, 0L, 0L, 
    0L, 0L, 0L, 0L), notes = c("Serial No = 1", "Direction = NORTH", 
    "Counting type = SINGLE LANE", "Ref count sense = IN", "Install height = 42 decimeter", 
    "Axis distance = 58 decimeter", "Road type = STANDARD", "Road slope = FLAT", 
    "Start of campain", "", "", "", "", "", "")), row.names = c("1", 
"2", "3", "4", "5", "6", "7", "8", "9", "10", "11", "12", "13", 
"14", "15"), class = "data.frame")

我想做的是:

获取“注释”列前9行的信息
将“注释”列中的信息添加为单独的变量
之后删除前 9 行或基本上所有行列“typ”== 100

我可以毫无问题地对列表中的对象手动执行此操作，如下面的代码所示:

data_lst[[1]]$serial <- data_lst[[1]]$notes[1]
data_lst[[1]]$direction <- data_lst[[1]]$notes[2]
data_lst[[1]]$lane <- data_lst[[1]]$notes[3]
data_lst[[1]]$install_height <- data_lst[[1]]$notes[5]
data_lst[[1]]$axis <- data_lst[[1]]$notes[6]
data_lst[[1]]$notes <- NULL 
data_lst[[1]] <- data_lst[[1]][-c(1:9),]

但是当我尝试循环这个过程时就会出现问题，因为我对循环非常缺乏经验。我做了这样的事情，

for(i in data_lst){
  data_lst[[i]]$serial <- data_lst[[i]]$notes[1]
}

从我的数据中获取“串行”信息，但我收到此错误:

error:
in data_lst[[i]] : invalid subscript type 'list'

热烈欢迎任何帮助:)

最佳答案

如果您想对列表中的每个条目执行相当复杂的操作，最好通过编写函数来分离出您希望应用于每个条目的逻辑。这使您的代码更具可读性、更模块化，并且将来更容易调试或修改。

在您的情况下，您可以编写一个函数来操作列表中的每个数据框，以创建不同组件的命名列表:您想要的所有命名注释，加上修改后的数据框。也许是这样的:

change_data_frame_to_named_list <- function(old_frame)
{
  return(list(serial         = old_frame$notes[1],
              direction      = old_frame$notes[2],
              lane           = old_frame$notes[3],
              install_height = old_frame$notes[5],
              xaxis          = old_frame$notes[6],
              data           = old_frame[-which(old_frame$type == 100), -6]
              ))
}

现在您所要做的就是将此函数应用于列表中的所有元素。在 R 中执行此操作的最惯用方法是根本不使用循环，而是使用 lapply(list apply 的缩写)。这将列表作为第一个参数，将您希望应用于每个元素的函数作为第二个参数。

这意味着您可以这样做:

result <- lapply(data_lst, change_data_frame_to_named_list)

这相当于循环版本，但更短、更整洁。

如果您确实想将其作为循环执行，则等效内容是:

result <- list()
for (i in seq_along(data_lst))
{
  result[[i]] = change_data_frame_to_named_list(data_lst[[i]])
}

无论哪种情况，变量result都是一个与data_lst长度相同的列表，其中每个条目本身就是一个命名列表，包含新的数据框及其关联的命名注释。

编辑

OP 请求了一种类似的方法，以他已经用手写循环制作的格式返回数据。以下是如何实现这一点。由于逻辑被分离到函数中，我们只需要更改函数本身:

change_data_frame <- function(old_frame)
{
  old_frame$serial         <- old_frame$notes[1]
  old_frame$direction      <- old_frame$notes[2]
  old_frame$lane           <- old_frame$notes[3]
  old_frame$install_height <- old_frame$notes[5]
  old_frame$xaxis          <- old_frame$notes[6]
  old_frame$notes          <- NULL

  return(old_frame[-which(old_frame$typ == 100),])    
}

# Now you just do as you did before
result <- lapply(data_lst, change_data_frame)

# and to get all dfs into one big data frame...
do.call("rbind", result)

关于r - 迭代/循环列表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59748676/

r - 迭代/循环列表

上一篇：html - 如何去除gojs示例 "productionProcess"中的浅蓝框？

下一篇：R - dbWriteTable 在列名中使用大写字母