我有来自 Outlook 电子邮件帐户的大量数据转储,这些数据完全以 .msg 文件形式存在。快速调用 ubuntu 的 file 方法发现它们是复合文档文件 V2 文档(无论这意味着什么)。我真的希望能够以纯文本形式读取这些文件。这可能吗?
更新:事实证明,完全不可能对这些类型的文件进行我想要的大规模数据挖掘,这真是太糟糕了。如果您遇到同样的问题,我创建了一个库来解决这个问题。 https://github.com/Slater-Victoroff/msgReader
文档不是很好,但它是一个非常小的库,所以它应该是不言自明的。
最佳答案
今天早上我也遇到了同样的问题。我没有找到有关文件格式的任何信息,但可以使用字符串和 grep 从文件中提取所需的信息:
strings -e l *.msg | grep pattern
-e l(这是一个小 L)从 UTF-16 转换。
只有当您可以从文件中 grep 出所需的数据时,这才有效(即所有必需的行都包含标准字符串或模式)。
关于text - 在 ubuntu 中读取复合文档文件 V2 文档 (.msg) 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15308052/