python - 如何用正则表达式匹配句子中的表情符号

我正在使用 Python 处理微博(在中国类似于 Twitter 的服务)句子。句子中有一些表情，对应的unicode是\ue317等。为了处理句子，我需要用gbk对句子进行编码，如下所示:

 string1_gbk = string1.decode('utf-8').encode('gb2312')

会出现UnicodeEncodeError:'gbk' codec can't encode character u'\ue317'

我尝试了 \\ue[0-9a-zA-Z]{3}，但没有成功。如何在句子中匹配这些表情符号？

最佳答案

'\ue317' 不是 u"asdasd\ue317 asad" 的子字符串 - 它是人类可读的 unicode 字符表示形式，无法通过正则表达式匹配。正则表达式适用于 repr(u'\ue317')

关于python - 如何用正则表达式匹配句子中的表情符号，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10890261/

相关文章：

python - 正则表达式:正确匹配具有负面回顾的组