正则表达式删除所有内容,但从 R 中的字符串中删除表情符号?

标签 r regex twitter unicode emoji

我有一个很大的 .xlsx 文件,其中包含带有表情符号的推文。我正在做一个个人项目,我想从提取的表情符号制作网络图。例如,如果我在其中一列中有这个:

Christian✝️, Husband👫, Father👨‍👩‍👦‍👦, Former TV 📺Meteorologist🌪, GOP🐘, LTC 🔫, Dolfan🐬, since ‘75, Yanks Fan⚾️ & UCONN Alum🏀 Go Whalers🐋!
那么我怎么才能把它作为输出呢?
✝️👫👨‍👩‍👦‍👦📺🌪🐘🔫🐬⚾️🏀🐋
我在 Stack Overflow 和互联网上到处都找遍了,但是我找不到任何东西。我是 R 的初学者。
编辑
当我正常读取文件时,我得到了 Unicode(UTF-8 格式),但我不知道如何将这些 Unicode 转换为表情符号。网上有词典,但他们只给了我其中一些表情符号的名称,它们非常过时。
编辑 2
有一个适用于 Linux 的解决方案,但我正在寻找一个解决方案/提示,让它在 Windows 中工作。

最佳答案

这对我有用,需要注意的是,只有交叉在控制台中作为表情符号打印出来,其余的是 unicode 表示。

# install.packages("remotes")
# remotes::install_github("hadley/emo")
emojis <- "Christian✝️, Husband👫, Father👨‍👩‍👦‍👦, Former TV 📺Meteorologist🌪, GOP🐘, LTC 🔫, Dolfan🐬, since ‘75, Yanks Fan⚾️ & UCONN Alum🏀 Go Whalers🐋!"
emojis
only_emojis <- emo::ji_extract_all(emojis)
only_emojis

#  emo::ji_extract_all(emojis)
# [[1]]
#  [1] "✝️"      "\U0001f46b"      "\U0001f468"      "\U0001f469"      "\U0001f466"      "\U0001f466"      "\U0001f4fa"      "\U0001f418"      "\U0001f52b"      "\U0001f42c"      "\u26be" "\U0001f3c0"      "\U0001f40b"   

# install.packages("utf8")
utf8::utf8_print(only_emojis[[1]])  
# [1] "✝️​" "👫​" "👨​" "👩​" "👦​" "👦​" "📺​" "🐘​" "🔫​" "🐬​" "⚾​" "🏀​" "🐋​"

关于正则表达式删除所有内容,但从 R 中的字符串中删除表情符号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58891776/

相关文章:

twitter - 使用 twitter api 获取最流行的主题标签

r - 如何在多面 ggplot2 条形图中对条形进行排序

r - ggsankey R 中的渐变色标

R M1 构建不会编译包

python - 如何向 string.punctuation 添加更多标点符号

objective-c - 使用 SLComposeViewController 发布到 Twitter 在 iOS 8 设备上不工作

r - 用 igraph 绘制社区

regex - 如果找到相同的单词,命令 egrep 提取一行

java - 除括号中的空格之外的所有空格拆分字符串

wpf - 如何使用WPF(Powerboots)显示Twitter状态(伪HTML)