我正在尝试将 Twitter 数据集中包含的表情符号转换为单词。我在R中使用“textclean”包,但是当使用replace_emoji时,一些表情符号被相应的单词替换,其他表情符号以其他格式显示
df_test$tweet <- textclean::replace_emoji(df_test$tweet)
我的预期输出例如“🦈 STARSHARKS 概述 🦈”类似于:
shark STARSHARKS OVERVIEW shark
相反,我得到:
<f0><9f><a6><88> STARSHARKS OVERVIEW <f0><9f><a6><88>
我遇到的另一个问题是,甚至撇号也被上述格式替换。
这对我来说有点奇怪,因为有些表情符号实际上被正确替换了。
我将非常感谢任何帮助,因为我对 R 编码还很陌生。
最佳答案
问题似乎是鲨鱼表情符号不在 lexicon::hash_emojis
数据表中。因此,您需要使用这些表情符号定义自己的 data.table
。
test = "🦈 STARSHARKS OVERVIEW 🦈"
custom_emoji_dt = data.table::data.table(x = "<f0><9f><a6><88>", y = "shark")
textclean::replace_emoji(test, emoji_dt = custom_emoji_dt)
#> [1] "shark STARSHARKS OVERVIEW shark "
由 reprex package 于 2022 年 7 月 25 日创建(v2.0.1)
关于在 R 中用 textclean 替换表情符号对我来说并不完全有效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73109103/