python - 如何使用正则表达式从数据框中的阿拉伯文本中删除某个字母？

我的数据框中有阿拉伯文本，我想删除字母 و从此字母开头的所有单词。我尝试这样做:

def clean(text_string):
    space_pattern = '\bو'
    
    parsed_text = re.sub(space_pattern, '', text_string)
    return parsed_text

然后:

df['tidy_tweet'] = np.vectorize(clean)(df['tidy_tweet'])

但是当我运行它时，没有任何变化。就好像我什么都没做一样!

示例:

输入:هيه الهزه الحقيقيه وتخافون الهزه وماتخافون الهزه اعملها نظامكم الهمجي

所需输出:هيه الهزه الحقيقيه تخافون الهزه ماتخافون الهزه اعملها نظامكم الهمجي

最佳答案

您需要对正则表达式使用 r 字符串:

space_pattern = r'\bو'

如果没有 r，\b 将被解释为 ASCII 退格字符，该字符不会出现在文本中。

关于python - 如何使用正则表达式从数据框中的阿拉伯文本中删除某个字母？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68061062/

相关文章：

python - 传递文件对象而不是文件名的开销？