r - 如何将数据框中的字符串拆分为多列

标签 r string split

我正在处理一个数据框,其中一列包含大部分为数字但可能包含非数字条目的值。我想将此列拆分为多个列。其中一列应包含原始条目的数字部分,另一列应包含任何非数字元素。

这是一个示例数据框:

df <- data.frame(ID=1:4,x=c('< 0.1','100','A 2.5', '200')) 

这是我希望数据框的样子:

ID   x1   x2
1    <    0.1
2         100
3    A    2.5
4         200

我目前正在利用的数据的特点是字符串的结构总是如下:非数字元素(如果存在的话)总是在数字元素之前并且两个元素总是用空间。

我可以使用 reshape 包中的 colsplit 根据空格拆分列。这样做的问题是它会复制任何不能拆分为两个元素的条目,

require(reshape)
df <- transform(df, x=colsplit(x,split=" ", names("x1","x2")))
df
ID  x1   x2
1   <    0.1
2   100  100
3   A    2.5
4   200  200

这不是什么大问题,因为我可以进行一些后处理以从列“x1”中删除数字元素。

我还可以在函数内使用 strsplit 来完成我想做的事情:

split.fn <- function(id){
 new.val <- unlist(strsplit(as.character(df$x[df$ID==id])," "))
   if(length(new.val)==1){
     return(data.frame(ID=id,x1="NA",x2=new.val))
   }else{
     return(data.frame(ID=id,x1=new.val[1],x2=new.val[2]))
   }  

}
data.frame(rbindlist(lapply(unique(df$ID),split.fn)))
ID   x1   x2
1    <    0.1
2    NA   100
3    A    2.5
4    NA   200      

但这看起来很麻烦。

基本上,我在此处概述的两个选项都可以使用。但我怀疑有一种更优雅或更直接的方法来获取所需的数据框。

最佳答案

您可以使用tidyr中的separate()

tidyr::separate(df, x, c("x1", "x2"), " ", fill = "left")
#   ID   x1  x2
# 1  1    < 0.1
# 2  2 <NA> 100
# 3  3    A 2.5
# 4  4 <NA> 200

如果您绝对需要删除 NA 值,那么您可以这样做

tdy <- tidyr::separate(df, x, c("x1", "x2"), " ", fill = "left")
tdy[is.na(tdy)] <- ""

然后我们有

tdy
#   ID x1  x2
# 1  1  < 0.1
# 2  2    100
# 3  3  A 2.5
# 4  4    200

关于r - 如何将数据框中的字符串拆分为多列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32854787/

相关文章:

r - 应用以创建不重叠的独特排列

r - 从 data.frame 中提取行

java - 一个字符串包含另一个字符串多少次

jquery - 我可以使用拆分替换吗?

R:以开头的所有列的总和

Python:在一个简单的字符串中获取最新的日期时间

c# - 有没有更好的方法来计算 C# 中字符串中的字符串格式占位符?

python - 如何使用 numpy 将数组拆分为不同维度的子数组?

c# - 为什么 "my,string".Split (',' ) 在 .NET C# 中有效

用 ddply 或 ply-family 函数的创造性使用替换 R 循环