python - 正则表达式匹配字符串中任意数量的标记

标签 python regex

我有以下格式的演讲者信息行列表(注意:该列表来自 LibriSpeech 语料库):

58 | M | train-other-500 | 30.06 | George Coutts

| (管道)将该行分为:

  • 发言者 ID
  • 性别
  • 语料库的子集
  • 录制的音频分钟数
  • 演讲者姓名

我想使用正则表达式在 Python 中提取此信息。到目前为止我已经使用了以下正则表达式:

(?P<speaker_id>.*)\|(?P<sex>.*)\|(?P<subset>.*)\|(?P<minutes>.*)\|(?P<speaker_name>.*)(?=.*)

这适用于几乎所有情况,除非说话者名称本身包含管道字符(至少有一个说话者是这种情况)。然后,正则表达式通过贪婪地匹配第一组(然后还包含性别和子集信息)以错误的方式分割不同的组。

参见https://regex101.com/r/GQzWOg/2进行演示。

如何使正则表达式匹配最后一个管道之后的所有内容,如 speaker_name组?

我已经尝试过 positive lookahead 进行实验但我真的无法理解这个......

最佳答案

您可以使您的正则表达式更加具体:

^(?P<speaker_id>\d+)\s*\|\s*(?P<sex>[MF])\s*\|\s*(?P<subset>.*?)\s*\|\s*(?P<minutes>\d[\d.]*)\s*\|\s*(?P<speaker_name>.*)

请参阅regex demo

分解:

  • ^ - 字符串的开头(如果使用 re.M 标志则为行)
  • (?P<speaker_id>\d+) - 1+ 位数字
  • \s*\|\s* -|用 0+ 空格括起来
  • (?P<sex>[MF]) -MF (针对性别)
  • \s*\|\s* -|用 0+ 空格括起来
  • (?P<subset>.*?) - 除了换行符之外的任何 0+ 个字符尽可能少
  • \s*\|\s* -|用 0+ 空格括起来
  • (?P<minutes>\d[\d.]*) - 一个数字,然后是 0+ 个数字或 .
  • \s*\|\s* -|用 0+ 个空格括起来
  • (?P<speaker_name>.*) - 除了换行符之外的任何 0 个以上字符,直到字符串/行的末尾。

关于python - 正则表达式匹配字符串中任意数量的标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49974923/

相关文章:

python - 如何模拟 Django 模型查询

python - 如何在 Python 3.8+ 和 Python 2.7+ 中使用 unittest.mock 包?

python - 将文件从服务器发送到客户端(python)

javascript - 匹配伪元素内容属性的正则表达式示例

python - 这样的正则表达式哪里错了?

python - 得到一条直线上的n个点

Python 命名参数是关键字?

javascript - 在 cucumber-js 中检索在特定字符串之前结束的参数

PHP preg_match_all 正则表达式从 css 获取像素值( "px")

regex - 如何构建正则表达式来查找字符串