text - 在 ubuntu 中读取复合文档文件 V2 文档 (.msg) 文件

标签 text encoding msg

我有来自 Outlook 电子邮件帐户的大量数据转储,这些数据完全以 .msg 文件形式存在。快速调用 ubuntu 的 file 方法发现它们是复合文档文件 V2 文档(无论这意味着什么)。我真的希望能够以纯文本形式读取这些文件。这可能吗?

更新:事实证明,完全不可能对这些类型的文件进行我想要的大规模数据挖掘,这真是太糟糕了。如果您遇到同样的问题,我创建了一个库来解决这个问题。 https://github.com/Slater-Victoroff/msgReader

文档不是很好,但它是一个非常小的库,所以它应该是不言自明的。

最佳答案

今天早上我也遇到了同样的问题。我没有找到有关文件格式的任何信息,但可以使用字符串和 grep 从文件中提取所需的信息:

strings -e l *.msg | grep pattern

-e l(这是一个小 L)从 UTF-16 转换。

只有当您可以从文件中 grep 出所需的数据时,这才有效(即所有必需的行都包含标准字符串或模式)。

关于text - 在 ubuntu 中读取复合文档文件 V2 文档 (.msg) 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15308052/

相关文章:

python - 这个文本处理代码是 Pythonic 的吗?

Ruby:如何自动添加 "# encoding: UTF-8"?

c# - 有没有办法在不知道解码值编码的情况下确定 base64 编码值的长度?

c# - 在图像上绘制字节

检查一个 msqid 看看是否有消息 without waiting 或 msgrcv

c++ - 从 .txt 文件中读取 float

python - 在外部文本文件中查找字符串所在的行号

python - 文本抓取(来自 EDGAR 10K Amazon)代码不起作用

c# - 将 MailItem 转换为内存中的 MSG,而不是文件系统中的 MSG

java - 如何获取 .MSG 文件的 MIME 类型?