java - 使用 Apache PDFBox 解析 PDF 文件

标签 java pdfbox

我正在尝试使用 PDFBox 修改 PDF 文档的内容。我用过this example事实上,但观察到我的 PDF 文件中的文本在字符级别被分割(或更糟)。例如,一个字符串,EM?它是什么: 被分割成:

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

(通过在上述代码中打印 cosString 进行检查时)。据我所知,文件中只有拉丁字符,编码也是ISO-8859-1。有什么想法吗?

问候,

萨利尔

最佳答案

这很可能是 PDF 格式问题。这就是您的特定 PDF 存储文本的方式,以获得正确的字母间距或 kerning 。不同的 PDF 之间的差异很大,具体取决于它们的创建方式。

通常,我建议简单地将所有不同的标记合并到一个大的内容字符串中。

关于java - 使用 Apache PDFBox 解析 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15742303/

相关文章:

java - 用PDFBox写图片到pdf,发现左上角有一些奇怪的像素

java - 使用 PDFBox 获取文本颜色

java - 如何为复选框添加边框并使其始终可见

java - 以功能方式从列表创建对列表

java - java中的对等点未经过身份验证

java - 在 servlet 中使用 PDFParser 时未找到类定义。但在Java应用程序中工作

java - 使用java旋转pdfbox中的文本

java - 我使用 Canvas 创建了一个绘图实用程序。有什么方法可以合并 JButtons、JTextFields 等

java - 在 Java 中 : why some Stream methods take int instead of byte or even char?

java - 使用 Java 的 OAuth 2.0 和 Google Spreadsheet API 的示例是什么?