我正在使用 python 2.X,并且正在从文件加载文本,这里是文本中的一行
Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo ♡♡♡
我发现这个正则表达式 [^\x30-\xFF] 完全匹配我想要的字符(使用在线正则表达式工具),但是当我在代码中使用它时,如下所示:
filtered_comments = re.sub("[^\x30-\xFF]", " ", all_comments)
不匹配相同的字符;您可以尝试http://pythex.org 所以在这篇文章中我想匹配 ♡♡♡ 并留下 ñ 和 ¿ ....有什么想法吗?
最佳答案
尝试以下脚本,请参阅第一行的#coding=utf-8
。更多信息请参见PEP-0263
# coding=utf-8
import re
comments = u"Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo ♡♡♡"
rx = re.compile(u"[\u2661]+")
# If you want to remove non-ASCII characters, as you mentioned in comments,
# uncomment following regex.
# Downside is it will remove all accented characters too.
#
# rx = re.compile(u"[^\x00-\x7F]+")
filtered_comments = re.sub(rx, " ", comments)
print filtered_comments
它将打印
Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo
关于python - python 上的简单正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35966306/