我想应用正则表达式来消除乌尔都语文本中的英文字符、数字和符号。我正在从 Twitter 中提取乌尔都语版本的推文,并且我想删除除乌尔都语和表情符号之外的所有内容。
这是我的输出
;00;RT @MeFixerr: شہباز شریف صاحب اس
لگن سے جھوٹ پہ جھوٹ بول رہے ہیں جیسے
اسمبلی پاکستان کی نہیں اسپین کی
ہو جہاں کسی کو اردو نہیں آتی 😂
这是我的代码
for tweet in tweepy.Cursor(api.search, q="اردو", rpp=10).items(10):
msg = [tweet.text]
msg = tuple(msg)
msgs.append(msg)
df = pd.DataFrame(msgs)
df.to_csv('ae3214.txt', sep = ';', line_terminator = '', encoding = 'UTF-8')
最佳答案
尝试使用flags=re.UNICODE
例如:
import re
s = """;00;RT @MeFixerr: شہباز شریف صاحب اس
لگن سے جھوٹ پہ جھوٹ بول رہے ہیں جیسے
اسمبلی پاکستان کی نہیں اسپین کی
ہو جہاں کسی کو اردو نہیں آتی 😂"""
print(re.sub(r"[A-Za-z0-9@;:]", "", s, flags=re.UNICODE)) #Replaces English letters, numbers and symbols like @;:
关于python - 如何使用 python 在乌尔都语文本中应用正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52490708/