r - 将一个小的随机样本从一个大的 csv 文件加载到 R 数据框中

标签 r csv random dataframe bigdata

要处理的 csv 文件不适合内存。如何读取 ~20K 随机行以对所选数据帧进行基本统计?

最佳答案

您也可以在终端中使用 perl 进行操作。
perl -ne 'print if (rand() < .01)' biglist.txt > subset.txt
这不一定会让你得到 20,000 行。 (这里它会占用总行数的大约 0.01 或 1%。)但是,它会非常快,并且您将在您的目录中拥有两个文件的不错副本。然后,您可以根据需要将较小的文件加载到 R 中。

关于r - 将一个小的随机样本从一个大的 csv 文件加载到 R 数据框中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22261082/

相关文章:

json - 将Json文件读取到没有嵌套列表的data.frame中

linux - 有线 R 响应

python - 如何使用 Pandas 获取 csv 文件的最后一 block ?

java - 如何使用java删除csv文件中字符串之间的逗号

c# - 如何生成从 0 到给定上限的正态分布的随机正 float ?

r - 如何从超大数据集(尤其是 rxGlm 输出)绘制交互效果

r - 使字符串统一 -- "AB-CD"=== "CD-AB"

php - 如何向 mysqli 数组添加条目

ruby-on-rails - 带有 tr 翻译的 SecureRandom 字符串显示大量下划线?

c++ - 在 C++ 中生成随机数的最佳方法是什么?