java - 如何使用 Java 从 pdf 中提取图像(不使用 pdfbox)

标签 java image pdf rendering

我一直在研究如何从一个大的 (> 300MB) PDF 文件中提取图像。我正在使用 pdfbox 但由于某些我无法弄清楚的特殊原因,某些页面未正确提取。

我使用 pdfbox 的 PDFToImage 类作为我的代码的基础。

那么,你知道另一个可以帮助我做到这一点的图书馆吗?我知道可以使用 iText,但我读到它不能用于商业产品。

我已经安装了 xpdf 和 xpdf-utils 包,名为 pdfimages 的实用程序运行良好。但我需要从 Java 解决这个问题,它应该是可移植的。

最佳答案

我认为您在这里谈论的是两件不同的事情:从 PDF 中提取图像,以及将 PDF 页面转换为图像。 PDFToImage 将为每个页面输出一个图像,而 pdfimages 会提取所有嵌入的图像(例如,文本文档有 0 个图像)。

看看org.apache.pdfbox.tools.ExtractImages ( source code ) 看看它是否符合您的要求。

关于java - 如何使用 Java 从 pdf 中提取图像(不使用 pdfbox),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4315836/

相关文章:

Java/Groovy : Randomize Encryption String Better

java - Android中如何将ArrayList的所有元素显示为Chips

java - 方法在调用时不执行。火存储

javascript - 将 base64 位图插入 rtf

google-app-engine - 如何在 Google App Engine 上使用 Pisa 从 HTML/CSS 生成 PDF

pdf - 在 Inkscape 生成的 PDF 文件中正确嵌入 JPG 数据

java - 在ListFragment中找不到ListView 'android.R.id.list'

html - 如何让文本在图像结束后保持缩进

html - 图像的中心部分适合屏幕

pdf - 性能变化 zend_pdf 2 与 tcpdf 。