我正在尝试使用 PDFBox 修改 PDF 文档的内容。我用过this example事实上,但观察到我的 PDF 文件中的文本在字符级别被分割(或更糟)。例如,一个字符串,EM?它是什么:
被分割成:
COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}
(通过在上述代码中打印 cosString
进行检查时)。据我所知,文件中只有拉丁字符,编码也是ISO-8859-1。有什么想法吗?
问候,
萨利尔
最佳答案
这很可能是 PDF 格式问题。这就是您的特定 PDF 存储文本的方式,以获得正确的字母间距或 kerning 。不同的 PDF 之间的差异很大,具体取决于它们的创建方式。
通常,我建议简单地将所有不同的标记合并到一个大的内容字符串中。
关于java - 使用 Apache PDFBox 解析 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15742303/