我有一个 pdf 作品集,由一个电子邮件线程组成,每封电子邮件都包含附件。我想阅读每封电子邮件中的文本并提取附件。但是,我找不到有关如何在 python 中阅读 pdf 作品集的信息。我尝试过使用库、PDFMiner 和 textract,但输出只是显示:“为了获得最佳体验,请在 Acrobat X 或 Adobe Reader X 或更高版本中打开此 PDF 组合。立即获取 Adobe Reader!”
有什么想法吗?谢谢!
最佳答案
来自poppler的程序pdfdetach
实用程序可以提取附件。
大多数类 UNIX 操作系统发行版都有一个可用的 poppler-utils
软件包。您可以在 SourceForge 上找到 ms-windows 版本。
您可以使用subprocess
模块从Python调用此程序。
关于python - 用 Python 阅读 PDF 包?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41596787/