我有几个包含混合字符的文本字符串:缅甸字母、拉丁字母、数字。我需要能够将文本分成不同的类别。这是一个例子:
အေရာင္ဆန္းဆန္းေလး ေတြ ပါတဲ့ Enhancing Eyes shawdow palette ေလးပါ ။
Price - 17000 ks. Call 625555555
我可以用正则表达式识别数字
re.findall("\d+", data)
但我不知道如何拆分这两个字母。由此产生的分割不需要是连贯的——我只需要 2 个单独的转储,一串缅甸语和一串英语。有人对如何识别这一点有任何建议吗?
最佳答案
似乎您想要如下所示的输出。
>>> import re
>>> s = '''အေရာင္ဆန္းဆန္းေလး ေတြ ပါတဲ့ Enhancing Eyes shawdow palette ေလးပါ ။
Price - 17000 ks. Call 625555555'''
>>> re.findall(r'\d+|[^A-Za-z]+|[A-Za-z\s]+', s)
['အေရာင္ဆန္းဆန္းေလး ေတြ ပါတဲ့ ', 'Enhancing Eyes shawdow palette ', 'ေလးပါ ။ \n', 'Price ', '- 17000 ', 'ks', '. ', 'Call ', '625555555']
关于Python 解析拉丁字母文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31972244/