从 df 中删除特定单词和符号

标签 r cpu-word

我有一个像这样的数据框结构,39 行

        text.
  "A" OR "B" OR "C"
  "C" OR "D" OR "E"

以及我要删除的单词的“黑名单”,这些单词以符号 " 开头和结尾。(200 个单词)这里是一个示例:

   blackList
      "A"
      "D"

我想从起始数据框中删除它们,获取:

        text.
    OR "B" OR "C"
    "C" OR OR "E"

我该怎么办?我尝试使用removeWords,但它没有读取符号

最佳答案

我们可以通过将所有列入黑名单的项目与“|”粘贴在一起来创建一个模式作为可折叠参数,然后将其全部删除。

df$text <- gsub(paste0(blacklist$blackList, collapse = "|"), "", df$text)

df
#            text
#1  OR "B" OR "C"
#2 "C" OR  OR "E"

数据

df <- data.frame(text = c('"A" OR "B" OR "C"','"C" OR "D" OR "E"'))
blacklist <- data.frame(blackList = c('"A"', '"D"'))

关于从 df 中删除特定单词和符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54482817/

相关文章:

字母的重复向量

r - 如何在 R 中基于以空行作为分隔符的列创建列

r - 在 R 中的文本文件中输出 J48 树

python - python 编码的单词分隔符

tensorflow - 如何基于Fine-Tuned BERT模型从文本中提取特征

grep - grep 只能识别文件中的一个匹配单词吗?

r - 类似于 head() 的函数用于矩阵

r - 组的总和,但对 r 中的每一行保持相同的值

从字节转换为字

python - 如何在Python 2.7.1中将一串字母变成3个字母的单词