python - 正则表达式匹配字符串中任意数量的标记

我有以下格式的演讲者信息行列表(注意:该列表来自 LibriSpeech 语料库):

58 | M | train-other-500 | 30.06 | George Coutts

| (管道)将该行分为:

我想使用正则表达式在 Python 中提取此信息。到目前为止我已经使用了以下正则表达式:

(?P<speaker_id>.*)\|(?P<sex>.*)\|(?P<subset>.*)\|(?P<minutes>.*)\|(?P<speaker_name>.*)(?=.*)

这适用于几乎所有情况，除非说话者名称本身包含管道字符(至少有一个说话者是这种情况)。然后，正则表达式通过贪婪地匹配第一组(然后还包含性别和子集信息)以错误的方式分割不同的组。

如何使正则表达式匹配最后一个管道之后的所有内容，如 speaker_name组？

我已经尝试过 positive lookahead 进行实验但我真的无法理解这个......

最佳答案

您可以使您的正则表达式更加具体:

^(?P<speaker_id>\d+)\s*\|\s*(?P<sex>[MF])\s*\|\s*(?P<subset>.*?)\s*\|\s*(?P<minutes>\d[\d.]*)\s*\|\s*(?P<speaker_name>.*)

分解:

关于python - 正则表达式匹配字符串中任意数量的标记，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49974923/