python - 用 Python 阅读 PDF 包?

标签 python python-2.7 pdf

我有一个 pdf 作品集,由一个电子邮件线程组成,每封电子邮件都包含附件。我想阅读每封电子邮件中的文本并提取附件。但是,我找不到有关如何在 python 中阅读 pdf 作品集的信息。我尝试过使用库、PDFMiner 和 textract,但输出只是显示:“为了获得最佳体验,请在 Acrobat X 或 Adob​​e Reader X 或更高版本中打开此 PDF 组合。立即获取 Adob​​e Reader!”

有什么想法吗?谢谢!

最佳答案

来自poppler的程序pdfdetach实用程序可以提取附件。

大多数类 UNIX 操作系统发行版都有一个可用的 poppler-utils 软件包。您可以在 SourceForge 上找到 ms-windows 版本。

您可以使用subprocess模块从Python调用此程序。

关于python - 用 Python 阅读 PDF 包?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41596787/

相关文章:

python - 多类 SVM 将所有样本分类为最可能的类别

javascript - 在 Adob​​e Reader JavaScript API 中将打印机重置为默认打印机

python - Nonetype 对象不可下标

以列表作为参数或多个值作为参数的 Python 函数

django - 我的 Ubuntu Apache Conf 文件有问题。 (禁止您无权访问此服务器上的/。)

python - 如何在python中搜索unicode字符串

Python-凯撒密码

pdf - 将 PDF 设置为不缩放打印

language-agnostic - 波普勒编程

等待用户 IO ('getchar()' 的 c++ 线程在主进程中挂起 'Py_Initialize()'