python - 用 Python 阅读 PDF 包？

标签 python python-2.7 pdf

我有一个 pdf 作品集，由一个电子邮件线程组成，每封电子邮件都包含附件。我想阅读每封电子邮件中的文本并提取附件。但是，我找不到有关如何在 python 中阅读 pdf 作品集的信息。我尝试过使用库、PDFMiner 和 textract，但输出只是显示:“为了获得最佳体验，请在 Acrobat X 或 Adobe Reader X 或更高版本中打开此 PDF 组合。立即获取 Adobe Reader!”

有什么想法吗？谢谢!

最佳答案

来自poppler的程序pdfdetach实用程序可以提取附件。

大多数类 UNIX 操作系统发行版都有一个可用的 poppler-utils 软件包。您可以在 SourceForge 上找到 ms-windows 版本。

您可以使用subprocess模块从Python调用此程序。

关于python - 用 Python 阅读 PDF 包？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41596787/