对于机器学习来说,我需要“清理”一些我正在提取的文本,所以我尝试了这个:
texto = "sdf sdf s _ sfsf sdfs _________ sfsdf"
texto = texto.replace(r"_{2,}"," ")
print(texto)
但结果不是预期的:
sdf sdf s _ sfsf sdfs _________ sfsdf
我想要:
sdf sdf s _ sfsf sdfs sfsdf
最佳答案
你可以使用
import re
texto = "sdf sdf s _ sfsf sdfs _________ sfsdf"
rx = re.compile(r'_{2,}')
texto = rx.sub('', texto)
哪个产量
sdf sdf s _ sfsf sdfs sfsdf
如果您还想替换尾随空格,请将表达式更改为
rx = re.compile(r'_{2,}\s*')
那么输出就是
sdf sdf s _ sfsf sdfs sfsdf
# ^^^
关于python - 如何使用python替换两个或多个下划线?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61367929/