Python 解析拉丁字母文本

标签 python regex

我有几个包含混合字符的文本字符串:缅甸字母、拉丁字母、数字。我需要能够将文本分成不同的类别。这是一个例子:

အေရာင္ဆန္းဆန္းေလး ေတြ ပါတဲ့ Enhancing Eyes shawdow palette ေလးပါ ။ 
Price - 17000 ks. Call 625555555

我可以用正则表达式识别数字

re.findall("\d+", data)

但我不知道如何拆分这两个字母。由此产生的分割不需要是连贯的——我只需要 2 个单独的转储,一串缅甸语和一串英语。有人对如何识别这一点有任何建议吗?

最佳答案

似乎您想要如下所示的输出。

>>> import re
>>> s = '''အေရာင္ဆန္းဆန္းေလး ေတြ ပါတဲ့ Enhancing Eyes shawdow palette ေလးပါ ။ 
Price - 17000 ks. Call 625555555'''
>>> re.findall(r'\d+|[^A-Za-z]+|[A-Za-z\s]+', s)
['အေရာင္ဆန္းဆန္းေလး ေတြ ပါတဲ့ ', 'Enhancing Eyes shawdow palette ', 'ေလးပါ ။ \n', 'Price ', '- 17000 ', 'ks', '. ', 'Call ', '625555555']

关于Python 解析拉丁字母文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31972244/

相关文章:

python - 如何使用 Pandas 计算滚动排名相关性

Python - 我无法停止程序运行

Dart 中双数的正则表达式

javascript - 使用标签之间的文本更改标签

Javascript/JQuery 正则表达式仅删除链接中的空格、括号、句点、减号

python - 插入一个 numpy 数组以适应另一个数组

python - urllib.error.URLError : <urlopen error [Errno 11002] getaddrinfo failed>?

python - 使用组合迭代多个字典

php - 如何使用正则表达式验证 Twitter 用户名

java - 我不明白的正则表达式