我一直在研究如何从一个大的 (> 300MB) PDF 文件中提取图像。我正在使用 pdfbox 但由于某些我无法弄清楚的特殊原因,某些页面未正确提取。
我使用 pdfbox 的 PDFToImage 类作为我的代码的基础。
那么,你知道另一个可以帮助我做到这一点的图书馆吗?我知道可以使用 iText,但我读到它不能用于商业产品。
我已经安装了 xpdf 和 xpdf-utils 包,名为 pdfimages 的实用程序运行良好。但我需要从 Java 解决这个问题,它应该是可移植的。
最佳答案
我认为您在这里谈论的是两件不同的事情:从 PDF 中提取图像,以及将 PDF 页面转换为图像。 PDFToImage
将为每个页面输出一个图像,而 pdfimages 会提取所有嵌入的图像(例如,文本文档有 0 个图像)。
看看org.apache.pdfbox.tools.ExtractImages
( source code ) 看看它是否符合您的要求。
关于java - 如何使用 Java 从 pdf 中提取图像(不使用 pdfbox),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4315836/