我的数据框中有阿拉伯文本,我想删除字母 و
从此字母开头的所有单词。我尝试这样做:
def clean(text_string):
space_pattern = '\bو'
parsed_text = re.sub(space_pattern, '', text_string)
return parsed_text
然后:
df['tidy_tweet'] = np.vectorize(clean)(df['tidy_tweet'])
但是当我运行它时,没有任何变化。就好像我什么都没做一样!
示例:
输入:هيه الهزه الحقيقيه وتخافون الهزه وماتخافون الهزه اعملها نظامكم الهمجي
所需输出:هيه الهزه الحقيقيه تخافون الهزه ماتخافون الهزه اعملها نظامكم الهمجي
最佳答案
您需要对正则表达式使用 r 字符串:
space_pattern = r'\bو'
如果没有 r,\b 将被解释为 ASCII 退格字符,该字符不会出现在文本中。
关于python - 如何使用正则表达式从数据框中的阿拉伯文本中删除某个字母?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68061062/