java - 使用 Apache PDFBox 解析 PDF 文件

我正在尝试使用 PDFBox 修改 PDF 文档的内容。我用过this example事实上，但观察到我的 PDF 文件中的文本在字符级别被分割(或更糟)。例如，一个字符串，EM?它是什么: 被分割成:

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

(通过在上述代码中打印 cosString 进行检查时)。据我所知，文件中只有拉丁字符，编码也是ISO-8859-1。有什么想法吗？

问候，

萨利尔

最佳答案

这很可能是 PDF 格式问题。这就是您的特定 PDF 存储文本的方式，以获得正确的字母间距或 kerning 。不同的 PDF 之间的差异很大，具体取决于它们的创建方式。

通常，我建议简单地将所有不同的标记合并到一个大的内容字符串中。

关于java - 使用 Apache PDFBox 解析 PDF 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15742303/

相关文章：

java - 用PDFBox写图片到pdf，发现左上角有一些奇怪的像素