Python正则表达式，匹配最后一个词

我有以下问题。我正在寻找通常看起来像这样的字符串中的所有单词 HelloWorldToYou 请注意，每个单词都大写作为开头，然后是下一个单词，依此类推。我正在寻找从中创建一个单词列表。所以最终的预期输出是一个看起来像的列表

['Hello','World','To','You']

在 Python 中，我使用了以下内容

mystr = 'HelloWorldToYou'
pat = re.compile(r'([A-Z](.*?))(?=[A-Z]+)')
[x[0] for x in pat.findall(mystr)]
['Hello', 'World', 'To']

但是，我无法捕捉到最后一个词“你”。有办法解决这个问题吗？提前致谢

最佳答案

使用 $ 的交替:

import re
mystr = 'HelloWorldToYou'
pat = re.compile(r'([A-Z][a-z]*)')
# or your version with `.*?`: pat = re.compile(r'([A-Z].*?)(?=[A-Z]+|$)')
print pat.findall(mystr)

参见 IDEONE demo

输出:

['Hello', 'World', 'To', 'You']

正则表达式解释:

([A-Z][a-z]*) - 匹配的捕获组
- [A-Z]一个大写英文字母后跟
- [a-z]* - 小写英文字母的可选数量
  -或-
- .*? - 惰性匹配换行符以外的任何字符

如果我们使用[a-z]*，则可以省略lookahead，但是如果您使用.*?，则使用它:

(?=[A-Z]+|$) - 最多一个大写英文字母(我们实际上可以在此处删除 +)，或字符串结尾 ($)。

如果您不使用前瞻版本，您甚至可以删除捕获组以获得更好的性能和 use finditer :

import re
mystr = 'HelloWorldToYou'
pat = re.compile(r'[A-Z][a-z]*')
print [x.group() for x in pat.finditer(mystr)]

关于Python正则表达式，匹配最后一个词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30986345/

Python正则表达式，匹配最后一个词

上一篇：python - 重新索引具有重复索引值的数据框

下一篇：python - 读取 csv 文件中的特定行，python