python - 如何使用 python 在乌尔都语文本中应用正则表达式

标签 python regex tweepy

我想应用正则表达式来消除乌尔都语文本中的英文字符、数字和符号。我正在从 Twitter 中提取乌尔都语版本的推文,并且我想删除除乌尔都语和表情符号之外的所有内容。

这是我的输出

;00;RT @MeFixerr: شہباز شریف صاحب اس 
لگن سے جھوٹ پہ جھوٹ بول رہے ہیں جیسے 
اسمبلی پاکستان کی نہیں اسپین کی 
ہو جہاں کسی کو اردو نہیں آتی 😂

这是我的代码

for tweet in tweepy.Cursor(api.search, q="اردو", rpp=10).items(10):
    msg = [tweet.text] 
    msg = tuple(msg)                    
    msgs.append(msg)
    df = pd.DataFrame(msgs)
    df.to_csv('ae3214.txt', sep = ';', line_terminator = '', encoding = 'UTF-8')

最佳答案

尝试使用flags=re.UNICODE

例如:

import re
s = """;00;RT @MeFixerr: شہباز شریف صاحب اس 
لگن سے جھوٹ پہ جھوٹ بول رہے ہیں جیسے 
اسمبلی پاکستان کی نہیں اسپین کی 
ہو جہاں کسی کو اردو نہیں آتی 😂"""

print(re.sub(r"[A-Za-z0-9@;:]", "", s, flags=re.UNICODE))    #Replaces English letters, numbers and symbols like @;:

关于python - 如何使用 python 在乌尔都语文本中应用正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52490708/

相关文章:

Python - PyODBC - 带循环的多个查询

python - 在Tweepy中遇到Python打印语法错误

python - Tweepy - 排除转推

arrays - 转换数组字母数字的每个成员的最快方法是什么?

python - 修改后的 tweepy 流类

python - 变量交换如何在内部工作?

Python,Tkinter,如何根据按钮单击更改GUI

python - 有没有一种 pythonic 方法来支持 Python 中的 memoize 装饰器的关键字参数?

r - 提取特殊字符 "/"之间的倒数第二个单词

regex - 如何查找和替换文本文件中所有出现的 "(percentage)%"并替换为用户提供的整数