我有一个通常有一些乱码的变量,例如:
\n\t\n\t\n\t\n\t\tSeuat eselyt\n\t\t\t\t\t\n\t\t\tti 30.07.2019 klo 12 :00 - 14:30\n\t\t\t\t\t\t\tTau 滑雪 2342342 2342342\n\t\t\t\t\t\n\t\n
我正在尝试提取日期 (30.07.2019) 和时间 (12:00 - 14:30)。我不太擅长解析,所以如果能在 R 中实现这一点,我将不胜感激。
最佳答案
如果您可以相信日期和时间部分在您的数据中只出现一次,您可以使用正则表达式来提取它们(此处使用数据框):
library(tidyverse)
data <-
tibble(gibberish_string = "\n\t\n\t\n\t\n\t\tSeuat eselyt\n\t\t\t\t\t\n\t\t\tti 30.07.2019 klo 12:00 - 14:30\n\t\t\t\t\t\t\tTau ski 2342342 2342342\n\t\t\t\t\t\n\t\n")
data %>% mutate(date = str_extract(gibberish_string,
pattern = "\\d{1,2}\\.\\d{1,2}\\.\\d{4}"),
time = str_extract(gibberish_string,
pattern = "\\d{1,2}:\\d{1,2}"))
关于r - 提取部分字符串 : date and times,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57270616/