我有一个很大的 .xlsx 文件,其中包含带有表情符号的推文。我正在做一个个人项目,我想从提取的表情符号制作网络图。例如,如果我在其中一列中有这个:
Christian✝️, Husband👫, Father👨👩👦👦, Former TV 📺Meteorologist🌪, GOP🐘, LTC 🔫, Dolfan🐬, since ‘75, Yanks Fan⚾️ & UCONN Alum🏀 Go Whalers🐋!
那么我怎么才能把它作为输出呢?✝️👫👨👩👦👦📺🌪🐘🔫🐬⚾️🏀🐋
我在 Stack Overflow 和互联网上到处都找遍了,但是我找不到任何东西。我是 R 的初学者。编辑
当我正常读取文件时,我得到了 Unicode(UTF-8 格式),但我不知道如何将这些 Unicode 转换为表情符号。网上有词典,但他们只给了我其中一些表情符号的名称,它们非常过时。
编辑 2
有一个适用于 Linux 的解决方案,但我正在寻找一个解决方案/提示,让它在 Windows 中工作。
最佳答案
这对我有用,需要注意的是,只有交叉在控制台中作为表情符号打印出来,其余的是 unicode 表示。
# install.packages("remotes")
# remotes::install_github("hadley/emo")
emojis <- "Christian✝️, Husband👫, Father👨👩👦👦, Former TV 📺Meteorologist🌪, GOP🐘, LTC 🔫, Dolfan🐬, since ‘75, Yanks Fan⚾️ & UCONN Alum🏀 Go Whalers🐋!"
emojis
only_emojis <- emo::ji_extract_all(emojis)
only_emojis
# emo::ji_extract_all(emojis)
# [[1]]
# [1] "✝️" "\U0001f46b" "\U0001f468" "\U0001f469" "\U0001f466" "\U0001f466" "\U0001f4fa" "\U0001f418" "\U0001f52b" "\U0001f42c" "\u26be" "\U0001f3c0" "\U0001f40b"
# install.packages("utf8")
utf8::utf8_print(only_emojis[[1]])
# [1] "✝️" "👫" "👨" "👩" "👦" "👦" "📺" "🐘" "🔫" "🐬" "⚾" "🏀" "🐋"
关于正则表达式删除所有内容,但从 R 中的字符串中删除表情符号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58891776/