r - 在 R 中解析文本文件并提取信息

标签 r string parsing extract

我需要从文件之间具有不同结构的文本文件中提取信息。虽然这可以使用宏来完成，因为文件是可变的，按行号选择。并且一行内的间距并非对所有文件都成功。

我想知道是否有人可以告诉我是否有一种方法可以解析 txt 文件并按关键字搜索并在关键字后提取信息？例如像 Flow Rate: 99.99 这样的东西，我想提取 99.99。
另一个问题是，使用 Flow Rate 示例，Flow Rate 会在每个文件中出现多次。有没有办法别名/索引 Flow Rate: 以便我可以选择，比如说，在第三次出现时？

欢迎任何提示或提示。我知道如何在识别关键字时打印整行，但不知道如何处理多次出现，并且只选择关键字后的数字:

all_data = readLines("Unit 5 2013.txt")
hours_of_operation <- grep("Annual Hours of Operation:    ",all_data)
all_data[hours_of_operation]
[1] "    Annual Hours of Operation:    8760.0 hours/yr"

谢谢

J

最佳答案

我猜您在要解析的每一行上都有一个数据点。如果是这样，您可以将数据读入向量并使用 grepl()函数来查找具有您需要的向量的所有实例。

例如，您有以下数据:

lhr: time to departure 5:00
dfw: time to arrival 4:40
jfk: time to arrival 5:50
dfw: time to departure 6:00
lax: time to departure 6:00

你想取出“dfw:”条目然后你做

data = readLines("file.txt")
data[grepl("dfw: ", data)]

如果你想要第二个条目，你可以

data[grepl("dfw: ", data)][2]

关于r - 在 R 中解析文本文件并提取信息，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28592128/

上一篇：r - 垂直分布具有智能间距的多行

下一篇：libgdx - 一旦不再使用 SpriteBatch 实例是否需要调用 dispose() ？

相关文章：

C、字符串、文件

string - 比较 String.Index 值

python - 获取 Pandas 系列字符串的第一个元素

c - 读取文件并使用Strtok，某些字段读取成功，某些字段读取不成功

python - 有没有办法检查字符串是否包含未知格式的日期？

r - R中具有2个分类变量和1个连续变量的折线图

r - 使用 facet_grid() 调整条形图的小数百分比

r - 如何根据开始日期和结束日期将数据帧的行拆分为多行？

r - 如何检查小标题中不同行的组合或匹配？

java - 在Java中通过行号和行位置检索XML节点