我有一个像这样的数据框结构,39 行
text.
"A" OR "B" OR "C"
"C" OR "D" OR "E"
以及我要删除的单词的“黑名单”,这些单词以符号 " 开头和结尾。(200 个单词)这里是一个示例:
blackList
"A"
"D"
我想从起始数据框中删除它们,获取:
text.
OR "B" OR "C"
"C" OR OR "E"
我该怎么办?我尝试使用removeWords,但它没有读取符号“。
最佳答案
我们可以通过将所有列入黑名单的项目与“|”粘贴在一起来创建一个模式作为可折叠参数,然后将其全部删除。
df$text <- gsub(paste0(blacklist$blackList, collapse = "|"), "", df$text)
df
# text
#1 OR "B" OR "C"
#2 "C" OR OR "E"
数据
df <- data.frame(text = c('"A" OR "B" OR "C"','"C" OR "D" OR "E"'))
blacklist <- data.frame(blackList = c('"A"', '"D"'))
关于从 df 中删除特定单词和符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54482817/