r - 在 R 中解析文本文件并提取信息

标签 r string parsing extract

我需要从文件之间具有不同结构的文本文件中提取信息。虽然这可以使用宏来完成,因为文件是可变的,按行号选择。并且一行内的间距并非对所有文件都成功。

我想知道是否有人可以告诉我是否有一种方法可以解析 txt 文件并按关键字搜索并在关键字后提取信息?例如像 Flow Rate: 99.99 这样的东西,我想提取 99.99。
另一个问题是,使用 Flow Rate 示例,Flow Rate 会在每个文件中出现多次。有没有办法别名/索引 Flow Rate: 以便我可以选择,比如说,在第三次出现时?

欢迎任何提示或提示。我知道如何在识别关键字时打印整行,但不知道如何处理多次出现,并且只选择关键字后的数字:

all_data = readLines("Unit 5 2013.txt")
hours_of_operation <- grep("Annual Hours of Operation:    ",all_data)
all_data[hours_of_operation]
[1] "    Annual Hours of Operation:    8760.0 hours/yr"

谢谢

J

最佳答案

我猜您在要解析的每一行上都有一个数据点。如果是这样,您可以将数据读入向量并使用 grepl()函数来查找具有您需要的向量的所有实例。

例如,您有以下数据:

lhr: time to departure 5:00
dfw: time to arrival 4:40
jfk: time to arrival 5:50
dfw: time to departure 6:00
lax: time to departure 6:00

你想取出“dfw:”条目然后你做
data = readLines("file.txt")
data[grepl("dfw: ", data)]

如果你想要第二个条目,你可以
data[grepl("dfw: ", data)][2]

关于r - 在 R 中解析文本文件并提取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28592128/

相关文章:

C、字符串、文件

string - 比较 String.Index 值

python - 获取 Pandas 系列字符串的第一个元素

c - 读取文件并使用Strtok,某些字段读取成功,某些字段读取不成功

python - 有没有办法检查字符串是否包含未知格式的日期?

r - R中具有2个分类变量和1个连续变量的折线图

r - 使用 facet_grid() 调整条形图的小数百分比

r - 如何根据开始日期和结束日期将数据帧的行拆分为多行?

r - 如何检查小标题中不同行的组合或匹配?

java - 在Java中通过行号和行位置检索XML节点