python - 如何使用正则表达式或替换来清理列表?

标签 python regex replace

这似乎是一个非常明显的错误,我已经尝试解决了将近一个小时。 :(

lst = ['\xa0\xa0+11-9188882266\xa0\xa0+01-9736475634 ','\xa0\xa0+11-9177772266\xa0\xa0+01-9736475234']

我试图只抓取数字、连字符和 + 号。基本上删除所有 \xa0

我认为 Regex 是解决问题的正确方法。试过了,失败了:

mRegex = (['+0-9-'])
lst = re.match(mRegex,lst)

Traceback (most recent call last): File "", line 1, in File "C:\Python34\lib\re.py", line 160, in match return _compile(pattern, flags).match(string) File "C:\Python34\lib\re.py", line 282, in _compile p, loc = _cache[type(pattern), pattern, flags] TypeError: unhashable type: 'list'

我用 regex 又试了几次,然后切换到 replace:

h.replace(r"\xa0","")

它不会对 lst 做任何事情。保持完全相同。

当我执行 len(lst[0]) 时,我得到 33,这很奇怪。

在一个:

for i in lst[0]:
    print(i)

输出不显示 \xa0

我在这里完全糊涂了。

最佳答案

首先,您不能在列表中应用替换/正则表达式。您必须为每个字符串应用它们,并使用列表理解来重建清理后的列表。

其次,当您使用 raw 前缀替换时,您不应该使用它,因为它按字面意思对待 \x,而不是您想要的。

我会:

lst = [x.replace("\xa0","") for x in lst]

结果:

['+11-9188882266+01-9736475634 ', '+11-9177772266+01-9736475234']

顺便说一句:mRegex = (['+0-9-']) 不起作用,因为您基本上定义了一个包含 1 个字符串的列表。你的意思可能是 mRegex = '([0-9\-+])'

正则表达式解决方案是:

lst = [re.sub(r"[^\d+\-]","",x) for x in lst]

(删除与 char 类不匹配的字符,\d(大致)等同于 0-9)

几年后我意识到(这次正确阅读了 OP 评论之后)预期的结果可能是列表中分隔的数字,因此删除 \xa0 不是一个好主意,因为它整理数字。让我们对每个字符串使用 split:

>>> lst = ['\xa0\xa0+11-9188882266\xa0\xa0+01-9736475634 ','\xa0\xa0+11-9177772266\xa0\xa0+01-9736475234']
>>> [x.split() for x in lst]
[['+11-9188882266', '+01-9736475634'], ['+11-9177772266', '+01-9736475234']]

实际上使用 split() 是可行的,因为 \xa0 被视为一个空格字符(例如 Windows 使用它),并且还会删除多个空格实例,因此立即给出结果,无需更多麻烦。

关于python - 如何使用正则表达式或替换来清理列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41836793/

相关文章:

regex - grep 中交替使用的两个正则表达式

regex - Go lang 从字符串中获取匹配的子字符串

c# - 在 C# 中操作 RegEx 匹配以进行计算

用一个因素替换另一个因素(在数据框内)

python - 检查元素中的 HTML 代码与 html 源代码不同

python - pyzmq Tornado ioloop : how to handle KeyboardInterrupt gracefully?

python - 第一次尝试运行 Play 框架时出现 "ImportError: DLL load failed"

python - 从异常对象中提取回溯信息

javascript - 在javascript正则表达式之后将输入光标设置到适当的位置

javascript - 当第一个字母重复时格式化名称大小写