我想通过仅用一个字符替换重复的字符来标准化阿拉伯字符串。例如:单词
رااااائع
将被标准化为
رائع
我找到了一个适合英语(python)的正则表达式:
s="I loooooooooooooooooove you"
s = re.sub(r'(.)\1+', r'\1', s) // s= "I love you"
但是,这个正则表达式不适用于阿拉伯字符串。我不明白原因。我想知道是否有人可以帮助我并提前致谢。
最佳答案
尝试以下操作:
import itertools
string = u"رااااائع"
''.join(char for char, _ in itertools.groupby(string))
我无法用阿拉伯语测试它,但它可以使用普通字符串
关于python - 如何处理阿拉伯语中的重复字母,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39137851/