java - 如何使用 Java 从 pdf 中提取图像(不使用 pdfbox)

我一直在研究如何从一个大的 (> 300MB) PDF 文件中提取图像。我正在使用 pdfbox 但由于某些我无法弄清楚的特殊原因，某些页面未正确提取。

我使用 pdfbox 的 PDFToImage 类作为我的代码的基础。

那么，你知道另一个可以帮助我做到这一点的图书馆吗？我知道可以使用 iText，但我读到它不能用于商业产品。

我已经安装了 xpdf 和 xpdf-utils 包，名为 pdfimages 的实用程序运行良好。但我需要从 Java 解决这个问题，它应该是可移植的。

最佳答案

我认为您在这里谈论的是两件不同的事情:从 PDF 中提取图像，以及将 PDF 页面转换为图像。 PDFToImage 将为每个页面输出一个图像，而 pdfimages 会提取所有嵌入的图像(例如，文本文档有 0 个图像)。

关于java - 如何使用 Java 从 pdf 中提取图像(不使用 pdfbox)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4315836/