php - 将多页 PDF 转换为单页 PDF 并提取图像

标签 php linux

我有一个多页 PDF 文件,其中包含我需要解析的信息。信息和图片仅限于其自己的页面。我需要从 PDF 中提取文本和图像。

我正在使用 CentOS 和 PHP。

我的尝试:

我最初尝试结合使用 pdftotext 和 imagemagick。我将 PDF 转换为图像,实际上将页面分成了自己的图像。不幸的是,页面上的图像质量很差。

我的目标:

我需要将 PDF 拆分为多个 PDF,每页一个。然后,我需要从该页面中提取尽可能最佳质量的图像。

谢谢。

最佳答案

imagemagick 不适合执行此任务

当您需要从 pdf 中提取图像时,以它们的原始 大小(即最好的,因为任何其他分辨率都小于或大于原始分辨率),您必须使用

pdfimages

http://www.foolabs.com/xpdf/download.html

(如果您不能从源代码编译,可以使用静态二进制文件)

语法:

pdfimages file.pdf image-root

生成的图像将具有扩展名 .ppm ,除非您添加开关 -j 以将 jpeg 图像作为输出

关于php - 将多页 PDF 转换为单页 PDF 并提取图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7867092/

相关文章:

php - 如何为用户创建一个 'feed'(数据库设计)?

python - 如何通过 SSH 在 python/bash/ruby 脚本中执行带有 "sudo"的命令?

linux - VSCode 多光标 Lubuntu

linux - 权限变更导致无法登录系统

linux - 在 Bash 脚本中解析命令输出

java - AES CBC PKCS5Padding with SecretKey 从 Java 到 Php

php - 使用 Gmail 在 codeigniter 中通过电子邮件类发送电子邮件

linux - 以编程方式使用性能列表中的性能事件

php - 即时获取 YouTube 音频流

php - 我的网址末尾的 a/如何影响 css 文件包含?