python - 剥离后获取非字母数字字符

我使用以下正则表达式从字符串中去除非字母数字字符(不删除空格)。

pattern = re.compile('([^\s\w]|_)+', re.UNICODE)

但是，过滤后我仍然得到以下字符串:

√ß
 √§√§√§  √°  √°
√†
 √•√Æ √≤√´√¢√°√§
√∂√®
√£√≥√ª√•√º√¥√ß √±√π√º
√ß √ß
√¥√π√± √∂√π√Æ √≠√Æ√™√Ø√Æ
√Æ√Ø√°√¨√µ√°√≠√∂
√π√®√µ√°√≠√∂
√≤√≠√≠√≤√™ √µ√°√≠√∂
√∏ √¢ √°√≠
√•√Æ√¶√≠√Æ
√≠√≠√∂ √π√Æ√≤√µ√†√§
√§
 √®√®√± √±√π√º
√®√®√± √±√π√º
√§√≥√≤√•√¥ √™√£
√Ø√π√π√Ø√§√≥ √±√π√º
√º√≠√ª√ß√¥√±√≥ √±√π√º

如何使用正则表达式处理它们？我希望上面的字符串在删除非字母数字字符后变成空字符串。

我有一个正在尝试预处理的用户查询列表。我提供相关的代码片段如下。

query_text = ' '.join([pattern.sub(' ', word) for word in tokens[1].lower().split()])
query_text = query_text.strip()

请注意:

我正在处理的问题是删除除给定字符串的空格之外的所有非字母数字字符。
根据英语删除非字母数字字符。

最佳答案

有了 re.UNICODE 标志(至少在我的 Python 版本中，也没有它)，类 \w 包含许多“非英语”字母数字字符，例如希腊字母、变音符号、连字等。如果您也想删除这些字符，则不应使用 \w，而应使用更“明确”的字符类，例如 a-zA-Z0-9。

>>> pattern = re.compile('([^\s\w]|_)+', re.UNICODE)
>>> pattern.sub("", text)
'ß\n     \n\n Æ \n\nªºß πº\nß ß\nπ πÆ ÆØÆ\nÆØµ\nπµ\n µ\n  \nÆÆ\n πÆµ\n\n  πº\n πº\n \nØππØ πº\nºªß πº'
>>> pattern = re.compile('[^\sa-zA-Z0-9]+', re.UNICODE)
>>> pattern.sub("", text)
'\n     \n\n  \n\n \n \n  \n\n\n \n  \n\n \n\n  \n \n \n \n '

或者您可以显式设置 re.ASCII 标志，以便 \w 实际上相当于 [a-zA-Z0-9_]

>>> re.sub("[^\s\w]", "", text, flags=re.UNICODE)
'ß\n     \n\n Æ \n\nªºß πº\nß ß\nπ πÆ ÆØÆ\nÆØµ\nπµ\n µ\n  \nÆÆ\n πÆµ\n\n  πº\n πº\n \nØππØ πº\nºªß πº'
>>> re.sub("[^\s\w]", "", text, flags=re.ASCII)
'\n     \n\n  \n\n \n \n  \n\n\n \n  \n\n \n\n  \n \n \n \n '

关于python - 剥离后获取非字母数字字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48028356/

python - 剥离后获取非字母数字字符

上一篇：python - 如何在 Python 3.6.4 (Windows) 上安装 Pillow

下一篇：python - Pymongo - 删除没有特定属性的数据库元组