我正在使用 Python 处理微博(在中国类似于 Twitter 的服务)句子。
句子中有一些表情,对应的unicode是\ue317
等。
为了处理句子,我需要用gbk对句子进行编码,如下所示:
string1_gbk = string1.decode('utf-8').encode('gb2312')
会出现UnicodeEncodeError:'gbk' codec can't encode character u'\ue317'
我尝试了 \\ue[0-9a-zA-Z]{3}
,但没有成功。如何在句子中匹配这些表情符号?
最佳答案
'\ue317'
不是 u"asdasd\ue317 asad"
的子字符串 - 它是人类可读的 unicode 字符表示形式,无法通过正则表达式匹配。正则表达式适用于 repr(u'\ue317')
关于python - 如何用正则表达式匹配句子中的表情符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10890261/