python - 解析srt字幕

标签 python regex

我要解析srt字幕:

    1
    00:00:12,815 --> 00:00:14,509
    Chlapi, jak to jde s
    těma pracovníma světlama?.

    2
    00:00:14,815 --> 00:00:16,498
    Trochu je zesilujeme.

    3
    00:00:16,934 --> 00:00:17,814
    Jo, sleduj.

每个项目都进入结构。使用此正则表达式:

答:

RE_ITEM = re.compile(r'(?P<index>\d+).'
    r'(?P<start>\d{2}:\d{2}:\d{2},\d{3}) --> '
    r'(?P<end>\d{2}:\d{2}:\d{2},\d{3}).'
    r'(?P<text>.*?)', re.DOTALL)

乙:

RE_ITEM = re.compile(r'(?P<index>\d+).'
    r'(?P<start>\d{2}:\d{2}:\d{2},\d{3}) --> '
    r'(?P<end>\d{2}:\d{2}:\d{2},\d{3}).'
    r'(?P<text>.*)', re.DOTALL)

还有这段代码:

    for i in Subtitles.RE_ITEM.finditer(text):
    result.append((i.group('index'), i.group('start'), 
             i.group('end'), i.group('text')))

对于代码 B,我在数组中只有一个项目(因为贪婪。*)而对于代码 A,我有空的 'text' 因为不贪婪。*?

如何治疗?

谢谢

最佳答案

为什么不使用 pysrt

关于python - 解析srt字幕,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2616766/

相关文章:

r - 如何将单词中的字符重复限制为 2?

c++ <regex> 搜索不匹配

python - for循环的字典输出

python - "' 模块 ' object has no attribute ' SSLContext '"使用 flocker-api 时出错

python - 在 Numpy 中将索引转换为向量

python - 如何将 Django 查询集转换为字典以用作模板上下文

javascript - 如何在 javascript 中将正则表达式文字附加到字符串文字

c# - .NET 正则表达式如何匹配在特定位置不包含单词的字符串

提取标签间数据的Java正则表达式

python - 如何将 excel 或 csv 文件作为 Pandas 数据框上传到 Flask?