Python正则表达式删除非unicode字符

我正在尝试使用 python 正则表达式从字符串中删除一些看起来像非 unicode 的字符。这是我的代码:

xxx='Juliana Gon\xe7alves Miguel'
t=re.sub('\w*','',xxx)
t

结果是这样的:

>>> xxx='Juliana Gon\xe7alves Miguel'
>>> t=re.sub('\w*','',xxx)
>>> t
' \xe7 '

这个\xe7 是我想要删除的。大家有什么想法吗？

最佳答案

如果所需的输出是

'Juliana Gonalves Miguel'

那么下面的正则表达式应该可以解决问题。

re.sub('(?![ -~]).', '', xxx)

[ -~]:所有 ASCII 字符的简短且可读的版本

(?!):否定前瞻

关于Python正则表达式删除非unicode字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38167273/

相关文章：

python - 从 pytest_generate_tests 中排除测试