当我尝试阅读 PDF 文档的内容时遇到问题。我正在使用带有Java的iText 2.1.7,我需要分析PDF文档的内容:首先我使用PdfTextExtractor的getTextFromPage方法并且它工作正常,但只有当页面只是文本时,如果它包含图像,那么我用getTextFromPage得到的字符串是一组无意义的符号(可能是不同的字符编码?),并且我丢失了文档的内容整个页面。我尝试使用 iText 的最新版本并且工作正常,但如果我没有错的话,许可证不会完全免费(我正在为商业客户开发一个网络应用程序,该应用程序可以动态提供 PDF),所以我无法使用它。如果您有任何建议,我将不胜感激。
如果您需要它,这里是代码:
PdfReader pdf = new PdfReader(doc); //doc is just a byte[]
int pageCount = pdf.getNumberOfPages();
for (int i = 1; i <= pageCount; i++) {
PdfTextExtractor pdfTextExtractor = new PdfTextExtractor(pdf);
String pageText = pdfTextExtractor.getTextFromPage(i);
提前致谢,问候。
最佳答案
我认为您的 PDF 有内嵌图像。我认为 iText 2.1.7 不会处理这个问题。 您可以找到有关许可证的信息here
关于java - 使用 iText 的 PdfTextExtractor 解析错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7354250/