Python正则表达式分割但将正则表达式匹配的结束部分放回到字符串中？

我想找到一个正则表达式，它可以将段落(长字符串，无需担心换行符)分解成句子，其简单规则是 {., ?, !} 后跟一个空格，然后大写字母应该是句子的结尾(我意识到这对于现实生活来说不是一个好的规则)。

我有一些东西可以部分工作，但它并不能完全完成工作:

line = 'a b c FFF! D a b a a FFF. gegtat FFF. A'
matchObj = re.split(r'(.*?\sFFF[\.|\?|\!])\s[A-Z]', line)
print (matchObj)

打印

['', 'a b c FFF!', '', ' a b a a FFF. gegtat FFF.', '']

而我想得到:

['a b c FFF!', 'D a b a a FFF. gegtat FFF.']

有两个问题。

为什么结果中有空成员 ('')？
我明白为什么 D 会从分割结果中被删除 - 它是第一次搜索的一部分。如何以不同的方式构建我的搜索，以便将标点符号后面的大写字母放回原处，以便将其包含在下一个句子中？在这种情况下，如何让 D 出现在分割结果的第二个元素中？

我知道我可以通过某种 for 循环来完成此操作，只需剥离第一个结果，添加回大写字母，然后重新执行一遍，但这似乎不太 Pythonic。如果正则表达式不是这里的方法，是否有一些东西仍然可以避免 for 循环？

感谢您的任何建议。

最佳答案

关于Python正则表达式分割但将正则表达式匹配的结束部分放回到字符串中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30084912/