python - python 上的简单正则表达式

标签 python regex python-2.7 io

我正在使用 python 2.X,并且正在从文件加载文本,这里是文本中的一行

Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo ♡♡♡

我发现这个正则表达式 [^\x30-\xFF] 完全匹配我想要的字符(使用在线正则表达式工具),但是当我在代码中使用它时,如下所示:

filtered_comments = re.sub("[^\x30-\xFF]", " ", all_comments)

不匹配相同的字符;您可以尝试http://pythex.org 所以在这篇文章中我想匹配 ♡♡♡ 并留下 ñ 和 ¿ ....有什么想法吗?

最佳答案

尝试以下脚本,请参阅第一行的#coding=utf-8。更多信息请参见PEP-0263

# coding=utf-8
import re

comments = u"Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo ♡♡♡"

rx = re.compile(u"[\u2661]+")

# If you want to remove non-ASCII characters, as you mentioned in comments,
# uncomment following regex. 
# Downside is it will remove all accented characters too.
#
# rx = re.compile(u"[^\x00-\x7F]+")

filtered_comments = re.sub(rx, " ", comments)

print filtered_comments

它将打印

Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo 

关于python - python 上的简单正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35966306/

相关文章:

python - 将 jQuery 添加到 Django 管理页面以进行下拉选择以启用/禁用它

python - 检查用户输入是否为 int (python)

python - Python 中的语义错误。数学错误

python - 将字符串拆分为整数

java - 在 Cucumber 步骤定义上传递多个参数

linux - 设置 bash shell 或命令提示符以运行 Python 项目

python - 我正在使用 pypyodbc.connect - 有没有办法给它一个应用程序名称?

JavaScript 匹配逗号分隔字符串中的多个值

python - 根据键中的不同值复制相同的数据并创建嵌套字典

python 效率 对于设置在常量上下文中使用的变量来说哪个更好