在 R 中用 textclean 替换表情符号对我来说并不完全有效

标签 r

我正在尝试将 Twitter 数据集中包含的表情符号转换为单词。我在R中使用“textclean”包,但是当使用replace_emoji时,一些表情符号被相应的单词替换,其他表情符号以其他格式显示

df_test$tweet <- textclean::replace_emoji(df_test$tweet)

我的预期输出例如“🦈 STARSHARKS 概述 🦈”类似于:

shark STARSHARKS OVERVIEW shark

相反,我得到:

<f0><9f><a6><88> STARSHARKS OVERVIEW <f0><9f><a6><88>

我遇到的另一个问题是,甚至撇号也被上述格式替换。

这对我来说有点奇怪,因为有些表情符号实际上被正确替换了。

我将非常感谢任何帮助,因为我对 R 编码还很陌生。

最佳答案

问题似乎是鲨鱼表情符号不在 lexicon::hash_emojis 数据表中。因此,您需要使用这些表情符号定义自己的 data.table

test = "🦈 STARSHARKS OVERVIEW 🦈"

custom_emoji_dt = data.table::data.table(x = "<f0><9f><a6><88>", y = "shark")

textclean::replace_emoji(test, emoji_dt = custom_emoji_dt)
#> [1] "shark STARSHARKS OVERVIEW shark "

reprex package 于 2022 年 7 月 25 日创建(v2.0.1)

关于在 R 中用 textclean 替换表情符号对我来说并不完全有效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73109103/

相关文章:

r - 强制 R 基本图以刻度线结束

r - 根据中位数对箱形图进行排序

r - ggplot 更新而不是添加图层

r - 如何获得R绘图窗口大小?

r - dplyr case_when 的 data.table 替代方案

r - Group_by 并在大型数据帧上缓慢变异

r - 仅当存在不止一个百分比的列时,才如何删除具有NA的行?

r - 如何使用 magick 包删除图像背景?

R 有没有一种方法可以在构建函数时动态更新函数

r - 与其他方法相比,opencpu.org 的意图是什么?