regex - 将字符分组后的字符替换为空

我有一个带有最大宽度为 200 的文本列的大 csv。在几乎所有情况下，数据都很好。在某些情况下，数据太长或没有完全正确填写，我想使用正则表达式来查找特定数字/字符配对的最后一个实例，然后删除它之后的所有内容。

例如数据:

df <- data.frame(ID = c("1","2","3"),
             text = c("A|explain what a is|12.2|Y|explain Y|2.36|",
                 "A|explain what a is|15.2|E|explain E|10.2|E|explain E but run out hal",
                 "D|explain what d is|0.48|Z|explain z but number 5 is present|"))

我的特定字符对是任何数字后跟 |

这意味着第 1 行很好，第 2 行将删除“10.2”后的所有内容，第 3 行将删除 0.48 后的所有内容

我试过这个正则表达式:

df[,2] <- sub("([^0-9]+[^|]*$)", "", df[,2])

它几乎几乎起作用了，但是我的数据中很少有在解释中出现数字的行并没有发挥作用。有什么线索吗？我还不是一个伟大的正则表达式，学习绳索

我看到了 this question关于分组，但不能完全适用于我的问题。

最佳答案

使用 sub ，我们捕获一个或多个字符( .* )，然后是多个数字之一，然后是一个点(如果存在)( \\.? )，然后是一个或多个作为一组的数字，然后是 |和其余的字符，直到字符串的末尾。在替换中，指定了捕获组 ( \\1 )。

sub('^(.*[0-9]+\\.?[0-9]+)\\|.*$', '\\1', df$text)

关于regex - 将字符分组后的字符替换为空，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34178610/

regex - 将字符分组后的字符替换为空

上一篇：eclipse - 如何对 Eclipse 命令处理程序进行单元测试？

下一篇：api - 多个端点以公开同一资源的不同 View