java - 使用 Apache PdfBox 提取两个书签之间的文本

标签 java pdf pdfbox

我正在使用 Apache PDFBox 读取具有由书签定义的层次结构的 PDF 文档。层次结构呈树状,仅在叶级包含内容。

使用以下代码提取两个叶级书签之间的文本:

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(),
Stripper.writeText()), 

改为返回整个页面中的文本。总之,我的问题和this thread中提到的类似.

有没有办法提取两个书签之间的内容?

如果是这样,我的代码应该更改什么?

最佳答案

我猜你的书签没有包含正确的数据。

听起来您使用的书签只指向内容开始的页面,而不是页面上的位置

这是一个包含位置数据的书签示例:

<Title Action="GoTo" Style="bold" Page="2 FitH 518">
Title Name
</Title>

关于java - 使用 Apache PdfBox 提取两个书签之间的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9579501/

相关文章:

java - Java 中的事件调度程序

java - 如何使用 Jsoup 提取 HTML 的单独部分?

java - 在泛型类中声明静态泛型变量

forms - 以 PDF 形式直观地识别字段名称

java - 使用 pdfBox 的横向 PDF

java - 如何使用实体限制实体数量?

java - 错误密码异常 : Bad user password

java - 在java中提取PDF文件并渲染为HTML

java - PDFBox:如何正确地将注释从一个pdf复制到另一个pdf

java - 如何将 IOException 作为自定义运行时异常 Java 8 吞下