Python:正则表达式在空格上分割(但在[]中保持元素不分割)并在数组中添加 ""作为换行符

标签 python regex

基本上想象一下,如果我有这样的一行:

"Hello world
I am Lucas [help me]
Hi" 

我希望 re.split() 的结果是:

['Hello' 'world' '' 'I' 'am' 'Lucas' '[help me] '' 'Hi']

到目前为止我已经尝试使用

re.split(r'\s+(?=[^()]*(?:\[|\<|$))', stringToSplit) 

但我不确定如何添加 '' 作为换行符。我试过:

result = re.split(r'\s|\n+(?=[^()]*(?:\[|\<|$))', input)

但是这会给[help me]带来问题,因为它会将其分成'[help'和'me]'。有解决这个问题的方法吗?

最佳答案

您可以使用匹配方法来提取方括号内的所有子字符串、非空白 block 或换行符之前的空格

\[[^[]*]|\([^)]*\)|<[^>]*>|\S+|(?=\n)

请参阅regex demo .

详细信息

  • \[[^]]*] - 一个[后跟除 ] 之外的任何 0+ 个字符然后]
  • | - 或
  • \([^)]*\) - 一个(后跟除 ) 之外的任何字符然后)
  • | - 或
  • <[^>]*> - 一个<后跟除 > 之外的任何 0+ 个字符然后>
  • | - 或
  • \S+ - 1 个或多个非空白字符
  • | - 或
  • (?=\n) - \n 之前的空字符串, 换行符。

请参阅Python demo :

re.findall(r"\[[^[]*]|\([^)]*\)|<[^>]*>|\S+|(?=\n)", s)
# => ['Hello', 'world', '', 'I', 'am', 'Lucas', '[help me]', '(help me 2)', '<help me 3>', '', 'Hi']

关于Python:正则表达式在空格上分割(但在[]中保持元素不分割)并在数组中添加 ""作为换行符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46770225/

相关文章:

python - 检查两个列表之间的公共(public)元素是否顺序相同

python3从列表列表中总结元素

python - 如果传入选项,则将值设置为 argparse 中的变量

c# - 正则表达式提取链接

python - Scrapy:LinkExtractor 不工作

Python:什么库是 'standard libraries' ?

python - 如何在 Django 中使用 iframe 进行生产?

excel - 正则表达式:用制表符替换每个逗号不在引号内

java - 正则表达式代替 String.contains(xyz) (Java 1.7)

python - 正则表达式匹配 1980 年和 2050 年之间的年份