r - 计算模式并区分它们

标签 r count stringr find-occurrences

我想为数据帧的每一行计算字符串中定义的模式(此处为“Y”)。理想情况下,我希望获得 V3 中的出现次数和 V4 中的长度。

输入:

V1  V2
A   XXYYYYY
B   XXYYXX
C   XYXXYX
D   XYYXYX

输出:

V1       V2 V3   V4
 A  XXYYYYY  1    5
 B   XXYYXX  1    2
 C   XYXXYX  2  1,1
 D   XYYXYX  2  2,1

我尝试对下面的函数进行不同的修改,但没有成功。

dict <- setNames(nm=c("Y"))
seqs <- df$V2
sapply(dict, str_count, string=seqs)

提前致谢!

最佳答案

另一个基础 R 解决方案,但使用 regexpr :

df <- data.frame(
  V1 = c("A", "B", "C", "D"),
  V2 = c("XXYYYYY", "XXYYXX" , "XYXXYX", "XYYXYX")
)

摘录match.length regexpr 的属性输出,然后计算每个属性的长度(它告诉你有多少匹配项):

r <- gregexpr("Y+", df$V2)
len <- lapply(r, FUN = function(x) as.array((attributes(x)[[1]])))
df$V3 <- lengths(len)
df$V4 <- len

df
#V1      V2 V3   V4
#1  A XXYYYYY  1    5
#2  B  XXYYXX  1    2
#3  C  XYXXYX  2 1, 1
#4  D  XYYXYX  2 2, 1

如果你的旧版本的 R 没有 lengths但是你可以使用 df$V3 <- sapply(len, length)反而。 如果你需要一个更通用的函数来对任何向量做同样的事情 x和图案a :

foo <- function(x, a){
  ans <- data.frame(x)
  r <- gregexpr(a, x)
  len <- lapply(r, FUN = function(z) as.array((attributes(z)[[1]])))
  ans$quantity <- lengths(len)
  ans$lengths <- len
  ans
}

尝试 foo(df$V2, 'Y+') .

关于r - 计算模式并区分它们,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34845000/

相关文章:

r - 生成向量中每个项目的 n 个随机对

r - 计算非线性回归的 R^2 值

mysql - 使用 MySQL 中的附加列过滤器从 Information Schema 获取行数

MySQL - 在不同条件下计算两件事

r - 将数据框中的字符向量与另一个字符向量匹配并修剪字符

r - 使用 tmap 在形状上弹出

r - 如何在将多个列值粘贴在一起时省略 NA 值?

C 函数 : Count the occurrences of a digit in an integer

r - 在 gregexpr 和 str_extract_all 函数中进行量化的交替

r - tidyverse/stringr 如何查找和替换完全匹配的内容