python - 如何使用正则表达式从数据框中的阿拉伯文本中删除某个字母?

标签 python regex python-re

我的数据框中有阿拉伯文本,我想删除字母 و从此字母开头的所有单词。我尝试这样做:

def clean(text_string):
    space_pattern = '\bو'
    
    parsed_text = re.sub(space_pattern, '', text_string)
    return parsed_text

然后:

df['tidy_tweet'] = np.vectorize(clean)(df['tidy_tweet'])

但是当我运行它时,没有任何变化。就好像我什么都没做一样!

示例:

输入:هيه الهزه الحقيقيه وتخافون الهزه وماتخافون الهزه اعملها نظامكم الهمجي

所需输出:هيه الهزه الحقيقيه تخافون الهزه ماتخافون الهزه اعملها نظامكم الهمجي

最佳答案

您需要对正则表达式使用 r 字符串:

space_pattern = r'\bو'

如果没有 r,\b 将被解释为 ASCII 退格字符,该字符不会出现在文本中。

关于python - 如何使用正则表达式从数据框中的阿拉伯文本中删除某个字母?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68061062/

相关文章:

python - 传递文件对象而不是文件名的开销?

python - 选择具有边界规则的感兴趣区域

c# - 看看正则表达式背后

python - 在python中进行正则表达式匹配后获取 token 序列号

python - 可以重新忽略惰性量词吗?

python - Tensorflow 相当于 numpy.diff

python - 如何计算某个字符串中某事发生的次数?

java - 为什么此代码(使用正则表达式从 URL 中提取主机名)失败

java - 正则表达式java来屏蔽

python - 在 Python 中将撇号保存在 re.sub 中