python - python 上的简单正则表达式

我正在使用 python 2.X，并且正在从文件加载文本，这里是文本中的一行

Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo ♡♡♡

我发现这个正则表达式 [^\x30-\xFF] 完全匹配我想要的字符(使用在线正则表达式工具)，但是当我在代码中使用它时，如下所示:

filtered_comments = re.sub("[^\x30-\xFF]", " ", all_comments)

不匹配相同的字符；您可以尝试http://pythex.org 所以在这篇文章中我想匹配 ♡♡♡ 并留下 ñ 和 ¿ ....有什么想法吗？

最佳答案

尝试以下脚本，请参阅第一行的#coding=utf-8。更多信息请参见PEP-0263

# coding=utf-8
import re

comments = u"Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo ♡♡♡"

rx = re.compile(u"[\u2661]+")

# If you want to remove non-ASCII characters, as you mentioned in comments,
# uncomment following regex. 
# Downside is it will remove all accented characters too.
#
# rx = re.compile(u"[^\x00-\x7F]+")

filtered_comments = re.sub(rx, " ", comments)

print filtered_comments

它将打印

Odio ¿Mañana pensar porque RT luego pasa lo que pasa Marzo

关于python - python 上的简单正则表达式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35966306/

上一篇：python - 使用 Splash Scrapy POST 到 Javascript 生成的表单

下一篇：python - R 和 python 之间的数据交换 (music21)

python - 检查用户输入是否为 int (python)

python - Python 中的语义错误。数学错误

python - 将字符串拆分为整数

java - 在 Cucumber 步骤定义上传递多个参数

linux - 设置 bash shell 或命令提示符以运行 Python 项目

python - 我正在使用 pypyodbc.connect - 有没有办法给它一个应用程序名称？

JavaScript 匹配逗号分隔字符串中的多个值

python - 根据键中的不同值复制相同的数据并创建嵌套字典

python 效率对于设置在常量上下文中使用的变量来说哪个更好