这似乎是一个非常明显的错误,我已经尝试解决了将近一个小时。 :(
lst = ['\xa0\xa0+11-9188882266\xa0\xa0+01-9736475634 ','\xa0\xa0+11-9177772266\xa0\xa0+01-9736475234']
我试图只抓取数字、连字符和 + 号。基本上删除所有 \xa0
。
我认为 Regex
是解决问题的正确方法。试过了,失败了:
mRegex = (['+0-9-'])
lst = re.match(mRegex,lst)
Traceback (most recent call last): File "", line 1, in File "C:\Python34\lib\re.py", line 160, in match return _compile(pattern, flags).match(string) File "C:\Python34\lib\re.py", line 282, in _compile p, loc = _cache[type(pattern), pattern, flags] TypeError: unhashable type: 'list'
我用 regex
又试了几次,然后切换到 replace
:
h.replace(r"\xa0","")
它不会对 lst
做任何事情。保持完全相同。
当我执行 len(lst[0])
时,我得到 33
,这很奇怪。
在一个:
for i in lst[0]:
print(i)
输出不显示 \xa0
。
我在这里完全糊涂了。
最佳答案
首先,您不能在列表中应用替换/正则表达式。您必须为每个字符串应用它们,并使用列表理解来重建清理后的列表。
其次,当您使用 raw 前缀替换时,您不应该使用它,因为它按字面意思对待 \x
,而不是您想要的。
我会:
lst = [x.replace("\xa0","") for x in lst]
结果:
['+11-9188882266+01-9736475634 ', '+11-9177772266+01-9736475234']
顺便说一句:mRegex = (['+0-9-'])
不起作用,因为您基本上定义了一个包含 1 个字符串的列表。你的意思可能是 mRegex = '([0-9\-+])'
正则表达式解决方案是:
lst = [re.sub(r"[^\d+\-]","",x) for x in lst]
(删除与 char 类不匹配的字符,\d
(大致)等同于 0-9
)
几年后我意识到(这次正确阅读了 OP 评论之后)预期的结果可能是列表中分隔的数字,因此删除 \xa0
不是一个好主意,因为它整理数字。让我们对每个字符串使用 split
:
>>> lst = ['\xa0\xa0+11-9188882266\xa0\xa0+01-9736475634 ','\xa0\xa0+11-9177772266\xa0\xa0+01-9736475234']
>>> [x.split() for x in lst]
[['+11-9188882266', '+01-9736475634'], ['+11-9177772266', '+01-9736475234']]
实际上使用 split()
是可行的,因为 \xa0
被视为一个空格字符(例如 Windows 使用它),并且还会删除多个空格实例,因此立即给出结果,无需更多麻烦。
关于python - 如何使用正则表达式或替换来清理列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41836793/