python - 如何处理阿拉伯语中的重复字母

标签 python arabic

我想通过仅用一个字符替换重复的字符来标准化阿拉伯字符串。例如:单词

 رااااائع

将被标准化为

رائع

我找到了一个适合英语(python)的正则表达式:

s="I loooooooooooooooooove  you" 
s = re.sub(r'(.)\1+', r'\1', s) // s= "I love you"

但是,这个正则表达式不适用于阿拉伯字符串。我不明白原因。我想知道是否有人可以帮助我并提前致谢。

最佳答案

尝试以下操作:

import itertools
string = u"رااااائع"
''.join(char for char, _ in itertools.groupby(string))

我无法用阿拉伯语测试它,但它可以使用普通字符串

引用:itertools.groupby

关于python - 如何处理阿拉伯语中的重复字母,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39137851/

相关文章:

python - 将多列融合为一列

php - 使用 UTF8 编码阿拉伯语

java - 使用java从以WE8ISO8859P1编码的Oracle数据库读取阿拉伯文本

java - 如何删除阿拉伯语主题标签?

python - celery worker 在任务完成后不释放内存

python - 如何将备选方案与 python 正则表达式匹配

python - 在 jython 中导入 python 模块

python - 在正则表达式中转义字符

date - 带有阿拉伯数字的回历、格里高利日期和时间

python - 在 tkinter 中使用阿拉伯语文本