R:如何在数据框中输出唯一的字符串(文本)?

标签 r text machine-learning

请帮忙。

我有一个包含近 40k 数据点(行)的数据框,其中一列包含文本。例如,

ID  Text
 1  I love my mum I love my dad
 2  I live in AB I used to live in CD
 .  .
 .  .

我希望它输出如下:

ID  Text
 1  I love my mum dad
 2  I live in AB used to CD
 .  .
 .  .

我尝试了 unique()make.unique() 但它们不起作用。

最佳答案

我猜您想从每个句子中删除任何重复的单词。如果是这种情况,您可以尝试:

txt<-c("I love my mum I love my dad","I live in AB I used to live in CD")
vapply(strsplit(txt,"\\s+"),function(x) paste(unique(x),collapse=" "),"")
#[1] "I love my mum dad"       "I live in AB used to CD"

关于R:如何在数据框中输出唯一的字符串(文本)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35916670/

相关文章:

c++ - 如何使用 win32 api C++ 在系统托盘图标中显示文本 - 第 2 部分

r - 当应用程序加载时,根据数据包含 "&"字符的 URL 预填充 Shiny 输入

r - 覆盖使用 Dplyr - R 过滤的 data.frame 上的值

php - 如何最好地使用正则表达式将层次结构文本文件转换为 XML?

javascript - 我们如何将文本从任意开始位置 trim 到任意结束位置?

python - 将多类分类器转换为分层多类分类器

r - 权重约束下的投资组合优化

r - 将箱线图数据分组,同时将其各自的 X 轴标签保留在 R 中的 ggplot2 中

python - 将 LinearSVC 的决策函数转换为概率(Scikit learn python)

machine-learning - Scikit_learn 的 PolynomialFeatures 与逻辑回归导致分数较低