php - 大写单词的正则表达式

标签 php regex preg-match-all

我有许多文档需要将文本分解为 block ,这些文档包含需要将大写单词分解为多个部分的文本

LORUM ipsum dolor sit amet, consectetur adipiscing elit, SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?

会变成

LORUM ipsum dolor sit amet, consectetur adipiscing elit, 

SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, 

TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. 

UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?

我尝试搜索 \b[A-Z](.*?)+\b 它返回大写单词,并且我尝试过 \b[A-Z](. *?)+\b(.*?)\b[A-Z](.*?)+\b 对于几个文档来说效果很接近,但对于其他文档(包括 Lorem Ipsum 示例)却失败了。

最佳答案

此处的匹配方法包括匹配连续的空格分隔的全大写单词,然后匹配不是以 2 个大写字母组成的序列开头的任何字符:

\b[A-Z]+(?:\s+[A-Z]+)*(?:(?![A-Z]{2}).)*

请参阅regex demo

如果全部大写单词必须包含至少 2 个字母,请使用限制量词而不是 +:

\b[A-Z]{2,}(?:\s+[A-Z]{2,})*(?:(?![A-Z]{2}).)*
       ^^^            ^^^^

图案详细信息:

  • \b - 前导字边界
  • [A-Z]+ - 1 个或多个大写 ASCII 字母
  • (?:\s+[A-Z]+)* - 零个或多个序列:
    • \s+ - 1 个以上空格
    • [A-Z]+ - 1+ 个大写 ASCII 字母
  • (?:(?![A-Z]{2}).)* - 与任何不是以 2 个大写 ASCII 字母组成的序列开头的字符匹配的调和贪婪标记。

关于php - 大写单词的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41579509/

相关文章:

php - Paypal 访问 - SSL 证书 : unable to get local issuer certificate

mysql - 如何使用 REGEX 清理标点符号、空格和字母

javascript - 正则表达式验证字符的单次出现

java - java读取时如何分隔 "="和 "=="

php - 正则表达式在 PHP 中无法正常工作

php - 正则表达式、PHP 和邪恶的嵌套 (?R)

php - 正则表达式,如何将内容文本放入数组中?

php - 当用户在 24 小时内未登录时将用户从 Tuser 中删除

php - 如何构建 phpmyadmin sql 数据库以允许多对多关系?

PHP - 对嵌套数组执行解析规则