c++ - 如何从 C++ 中的推文中删除表情符号?

标签 c++ string parsing twitter emoticons

我正在使用 C++ 开发 Twitter 情绪分析工具。到目前为止,我从 Twitter 获得了推文,并对它们进行了一些处理(小写,删除 RT,删除 # 和 URL)。

下一步是删除表情符号和所有那些特殊字符。如何做到这一点?在你跳过我之前,我已经看过其他类似的问题,但没有一个涉及 C++。主要是 R、Python 和 PHP。

我想使用正则表达式,但我无法让它工作。我尝试删除主题标签和 URL,但我放弃了。我最终使用了普通的 string:find 和 find_first_of。

是否有任何库或方法可以摆脱那些表情符号和特殊的东西?

谢谢

最佳答案

我建议为此使用正则表达式。现在你有两个选择,你可以只提取你感兴趣的字符(如果你正在处理英文推文,这可能是 A-Z、a-z、数字和一些符号,具体取决于你的需要),或者你可以选择无效字符(表情符号)并将其替换为空字符串。

我只有 Qt 的 RegularExpression 引擎的经验,但 c++ 标准库有正则表达式支持(虽然我不确定它对 Unicode 有多好),但是 ICU也提供了一个正则表达式库。

*我会提供更多链接,但我还没有足够的声誉:/

关于c++ - 如何从 C++ 中的推文中删除表情符号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37591074/

相关文章:

c++ - 文件解析器 - 如何读取行

c++ - 哪个 C++ 编译器最符合最新的 C++ 标准

c++ - Cout 不打印字符串名称(没有显示错误)

c++ - 在 C++ 中定义和声明全局变量

json - 使用 Spray-json 在 SCALA 中解析复杂的 JSON

linux - 如何从输出行中提取第一列?

php - 当 PHP、C++ 和 shell 脚本尝试访问同一个文件时,如何避免错误?

javascript - 检查字符串中的第一个字符

java - 改变Java中数组的大小

c++ - 函数将返回一个字符串,其中包含两个索引之间的部分