r - 在 R 中查找 "near duplicates"字符串

标签 r nlp sentiment-analysis text-analysis

我正在使用 R 构建情绪分析工具，但我遇到了一些重复问题。数据的主要来源是推特，看起来很多人通过在每条推文末尾添加一些随机文本来绕过推特自己的垃圾邮件过滤器。例如

Click xxxxx to buy the amazing xxxxx for FREE ugjh

我收到了大量在末尾带有不同随机字符串的完全相同的推文。它们要么来自同一用户，要么来自不同用户。

是否有类似 duplicated 或 unique 的函数返回 2 个字符串的接近程度，如果它们超过某个 % 则忽略它们？

我知道这样做最终会删除那些说完全相同的人的真实推文，比如

I love xxxx !

但我会在未来处理它。

任何正确方向的提示都将不胜感激!

最佳答案

我在上面提到了 agrep。这是您所解释内容的示例。通过改变 max.distance 我们可以调整被踢的东西:

comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"

agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)

关于r - 在 R 中查找 "near duplicates"字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13714893/

上一篇：插入资金时使用的SQL数据类型

下一篇：visual-studio-2010 - 启动时自动在 Visual Studio 中运行扩展代码

相关文章：

r - 当 R 图中axes=F 时，par(xpd=NA) 不起作用

r - 查找数据集中的特定日期数据小于何处？

r - 以 PDF 和 PNG 格式保存图表，但在最终文档中使用 PDF 文件

python - 如何使用 Python 从现有列表中重命名已抓取的文件

python - 我怎样才能解决单词级的困惑？

r - 在quanteda中应用字典时提取顶部正负特征

python - 为什么训练我的朴素贝叶斯分类器需要这么多内存？

java - Stanford CoreNLP 中的详细情绪评分

r - Flexdashboard 不适用于 Shiny URL 状态

open-source - 术语提取和情感分析开源项目