python - 如何用正则表达式匹配句子中的表情符号

标签 python regex emoticons

我正在使用 Python 处理微博(在中国类似于 Twitter 的服务)句子。 句子中有一些表情,对应的unicode是\ue317等。 为了处理句子,我需要用gbk对句子进行编码,如下所示:

 string1_gbk = string1.decode('utf-8').encode('gb2312')

会出现UnicodeEncodeError:'gbk' codec can't encode character u'\ue317'

我尝试了 \\ue[0-9a-zA-Z]{3},但没有成功。如何在句子中匹配这些表情符号?

最佳答案

'\ue317' 不是 u"asdasd\ue317 asad" 的子字符串 - 它是人类可读的 unicode 字符表示形式,无法通过正则表达式匹配。正则表达式适用于 repr(u'\ue317')

关于python - 如何用正则表达式匹配句子中的表情符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10890261/

相关文章:

python - 正则表达式:正确匹配具有负面回顾的组

php - camelCase to dash - 两个大写字母相邻

android - 在 Android 中显示表情符号

python - Scikit-learn 交叉验证分数 : too many indices for array

python - 使用Python/计算机视觉等获取图像中的顶点? (附图片)

php - 如何在 PHP 中禁用 'e' PREG_REPLACE_EVAL 修饰符?

Python使用json读取一个带表情的字符串

python - 有没有办法让 `python -q` 成为 python 解释器的默认行为?

python - urllib urlopen/urlretrieve too many open files 错误