我正在尝试使用 python 正则表达式从字符串中删除一些看起来像非 unicode 的字符。 这是我的代码:
xxx='Juliana Gon\xe7alves Miguel'
t=re.sub('\w*','',xxx)
t
结果是这样的:
>>> xxx='Juliana Gon\xe7alves Miguel'
>>> t=re.sub('\w*','',xxx)
>>> t
' \xe7 '
这个\xe7 是我想要删除的。 大家有什么想法吗?
最佳答案
如果所需的输出是
'Juliana Gonalves Miguel'
那么下面的正则表达式应该可以解决问题。
re.sub('(?![ -~]).', '', xxx)
[ -~]
:所有 ASCII 字符的简短且可读的版本
(?!)
:否定前瞻
关于Python正则表达式删除非unicode字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38167273/