我正在分析一个 1.14 GB(1,232,705,653 字节)的数据集。
读取R中的数据时:
trade = read.csv("commodity_trade_statistics_data.csv")
可以看到它有8225871个实例和10个属性。
由于我打算通过 Data Wrangling Web 应用程序分析数据集,该应用程序的导入限制为 100MB,我想知道如何将数据拆分为最大 100MB 的文件?
我打算做的拆分是每行,每个文件都应该包含标题。
最佳答案
将数据帧拆分为所需数量的块。这是一个带有内置 mtcars
的示例数据集:
no_of_chunks <- 5
f <- ceiling(1:nrow(mtcars) / nrow(mtcars) * 5)
res <- split(mtcars, f)
然后,您可以使用
purrr
将结果另存为 csv。 :library(purrr)
map2(res, paste0("chunk_", names(res), ".csv"), write.csv)
编辑:
在我的问题的上下文中,以下脚本解决了这个问题:
trade = read.csv("commodity_trade_statistics_data.csv")
no_of_chunks <- 14
f <- ceiling(1:nrow(trade) / nrow(trade) * 14)
res <- split(trade, f)
library(purrr)
map2(res, paste0("chunk_", names(res), ".csv"), write.csv)
关于r - 在 R 中将每行的数据集拆分为较小的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57047338/