regex - R删除unicode换行符

标签 regex r

我在需要删除的字符串中有 Unicode 换行符。

这些字符可以回车\U000D , 换行 \U000A , 行分隔符或段落分隔符。

我可以使用以下命令删除回车符和换行符。

gsub("\\s", "", x)

就像我说的那样,这对那些 Unicode 字符很有效,但我无法删除行分隔符 \U2028或段落分隔符 \U2029人物。

有没有另一种方法可以做到这一点?

最佳答案

您可以打开 PCRE 使用 perl=T并利用方便的转义序列( \R )

> x <- 'foo\U000D\U000A bar\U2029 baz\U2028\U2029'
> x
## [1] "foo\r\n bar\u2029 baz\u2028\u2029"
> gsub('\\R', '', x, perl=T)
## [1] "foo bar baz"

关于regex - R删除unicode换行符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25467362/

相关文章:

java - 将 key=value 的字符串解析为 Map

r - 使用 data.table 根据特定日期条件过滤观察结果

php - 在php中清理句子

java - 正则表达式获取引号中的文件名

r - Shinydashboard: 'restoreInput' 不是从 'namespace:shiny' 导出的对象

r - 使用 geom_dotplot 时绘图区域被截断

r - 如何在 R 中使用 apply 来子集所需列并用空白填充其余列?

r - ggplot2 每个图例标签有不同的文本颜色

java - 正则表达式将多个字符串合并到一个字符串中

php - 如何将尾随换行符与正则表达式匹配?