python - 解析电子邮件中的 "Sent"行

我有一个大约 150 封电子邮件的文件夹，全部保存为 HTML 文件(Firefox 扩展)，并且我需要捕获始终在“已发送”行中找到的年份；如下图所示。

我尝试使用 RegEx 但失败了；它根本不会打印任何结果，表明我的正则表达式不起作用。我尝试使用 email 模块中的 get_payload() 和 message_from_string() 命令，但由于它是 HTML 文档，因此失败了。然后我尝试使用 BeautifulSoup 捕获整个电子邮件，然后仅解析“已发送”行，但由于未知原因失败了。我不是这些模块的专家，因此我们将不胜感激。

我尝试过的相关代码:

for filename in os.listdir(path):
    file_path = os.path.join(path, filename)
    if os.path.isfile(file_path):
        html_ = open(file_path, 'r').read()
        soup_ = BeautifulSoup(html, 'lxml')
        pattern = re.compile(r'Sent:/s([/d]{4})')
        txt = html.read()
        dates = pattern.findall(txt)
        if "Sent" in line:
            print("Date:", ''.join(dates))

最佳答案

您的正则表达式(我认为斜杠只是一个拼写错误)与 Sent: 和年份之间的字符并不真正匹配。您可以将正则表达式修复为