python - 如何使用正则表达式或替换来清理列表？

这似乎是一个非常明显的错误，我已经尝试解决了将近一个小时。 :(

lst = ['\xa0\xa0+11-9188882266\xa0\xa0+01-9736475634 ','\xa0\xa0+11-9177772266\xa0\xa0+01-9736475234']

我试图只抓取数字、连字符和 + 号。基本上删除所有 \xa0。

我认为 Regex 是解决问题的正确方法。试过了，失败了:

mRegex = (['+0-9-'])
lst = re.match(mRegex,lst)

Traceback (most recent call last): File "", line 1, in File "C:\Python34\lib\re.py", line 160, in match return _compile(pattern, flags).match(string) File "C:\Python34\lib\re.py", line 282, in _compile p, loc = _cache[type(pattern), pattern, flags] TypeError: unhashable type: 'list'

我用 regex 又试了几次，然后切换到 replace:

h.replace(r"\xa0","")

它不会对 lst 做任何事情。保持完全相同。

当我执行 len(lst[0]) 时，我得到 33，这很奇怪。

在一个:

for i in lst[0]:
    print(i)

输出不显示 \xa0。

我在这里完全糊涂了。

最佳答案

首先，您不能在列表中应用替换/正则表达式。您必须为每个字符串应用它们，并使用列表理解来重建清理后的列表。

其次，当您使用 raw 前缀替换时，您不应该使用它，因为它按字面意思对待 \x，而不是您想要的。

我会:

lst = [x.replace("\xa0","") for x in lst]

结果:

['+11-9188882266+01-9736475634 ', '+11-9177772266+01-9736475234']

顺便说一句:mRegex = (['+0-9-']) 不起作用，因为您基本上定义了一个包含 1 个字符串的列表。你的意思可能是 mRegex = '([0-9\-+])'

正则表达式解决方案是:

lst = [re.sub(r"[^\d+\-]","",x) for x in lst]

(删除与 char 类不匹配的字符，\d(大致)等同于 0-9)

几年后我意识到(这次正确阅读了 OP 评论之后)预期的结果可能是列表中分隔的数字，因此删除 \xa0 不是一个好主意，因为它整理数字。让我们对每个字符串使用 split:

>>> lst = ['\xa0\xa0+11-9188882266\xa0\xa0+01-9736475634 ','\xa0\xa0+11-9177772266\xa0\xa0+01-9736475234']
>>> [x.split() for x in lst]
[['+11-9188882266', '+01-9736475634'], ['+11-9177772266', '+01-9736475234']]

实际上使用 split() 是可行的，因为 \xa0 被视为一个空格字符(例如 Windows 使用它)，并且还会删除多个空格实例，因此立即给出结果，无需更多麻烦。

关于python - 如何使用正则表达式或替换来清理列表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41836793/

python - 如何使用正则表达式或替换来清理列表？

上一篇：python - 在启动/重启 AWS 实例时运行 Python 脚本

下一篇：Python 数组额外逗号格式