要处理的 csv 文件不适合内存。如何读取 ~20K 随机行以对所选数据帧进行基本统计?
最佳答案
您也可以在终端中使用 perl 进行操作。perl -ne 'print if (rand() < .01)' biglist.txt > subset.txt
这不一定会让你得到 20,000 行。 (这里它会占用总行数的大约 0.01 或 1%。)但是,它会非常快,并且您将在您的目录中拥有两个文件的不错副本。然后,您可以根据需要将较小的文件加载到 R 中。
关于r - 将一个小的随机样本从一个大的 csv 文件加载到 R 数据框中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22261082/