r - 如何在R中读取大型数据集的子集?

标签 r read.table

我有一个大约有 200 万行的数据集,所以没有读取整个数据集,我想读取 dataset 的一个子集。我的数据集包含一个日期列,所以我只想读取一个日期范围之间的数据集而不读取整个数据集,因为它既耗时又浪费内存。那么如何完成它任何人都可以指导我吗?

最佳答案

使用 skip= read.table 中的参数

read.table("file.txt",skip= ,nrows= )

两者skip=nrows=接受行指示符编号,因此只需将它们添加到 = 之后即可。
nrows=定义导入文件时范围的深度。

我建议阅读 https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html如果你还没有这样做。

另外,请参阅我的问题之一:

R - Reading lines from a .txt-file after a specific line

它在某种程度上触及了同一主题。

另一种可能的方法是使用 grep()skip=
read.table(...,skip=grep("2005-12-31", readLines("File.txt")),nrows=365)

该行的作用是跳过直到找到 grep() 中描述的行。并阅读之后的行。 nrow=将在读取 365 行后停止读取(这样您就读取了一年的日期,前提是一行等于一个日期)。

这看起来有点复杂,但这是我知道如何解决这个问题的唯一方法。

关于r - 如何在R中读取大型数据集的子集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25932628/

相关文章:

r - 为什么 R 中 ksvm 中的概率和响应不一致?

将值从一个数据帧表示到另一个数据帧。申请?申请?

r - 为 CV 结果的 e1071 中的 svm 生成混淆矩阵

读表错误

r - 在 ggradar 图中保留原始值

python - scikit-learn 和 caret GBM 结果之间的差异?

r - 优化 R 中的文件读取

R 中的 read.table 和评论

在R中读取具有多个空格和单词的文本文件

r - 如何避免 : read. 表截断以 0 开头的数值