java - 获取pdf中包含特定单词的页码

标签 java pdf pdfbox

如何在java中的pdfbox API中获取pdf中包含特定单词的页码?

我能够阅读单词:

PDFTextStripper s = new PDFTextStripper();
String contents = s.getText(pdoc);  
if(contents.contains("SUBSCRIPTION DETAILS")){
...
}

但无法找到包含该单词的页码

提前致谢。

最佳答案

PDFTextStripper 允许您阅读确切的页面。因此,您需要遍历所有页面并检查页面是否包含特定字符串:

PDDocument pdoc = ...;
for(int pageNumber = 1; pageNumber < pdoc.getPageCount(); i++){

    PDFTextStripper s = new PDFTextStripper();
    s.setStartPage(pageNumber);
    s.setEndPage(pageNumber);
    String pageText = reader.getText(pdoc);
    String contents = s.getText(pdoc);  
    if(contents.contains("SUBSCRIPTION DETAILS")){
    ...
    }
}

关于java - 获取pdf中包含特定单词的页码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19559906/

相关文章:

java - 检查 junit 中所有语句是否抛出异常的最有效方法是什么?

c# - 如何在将 XPS 转换为 PDF 时获取 GhostPDL 进度通知?

java - 在 Android 设备上访问 SD 卡上的 PDF 文件

java - JBig2在运行时无法解析?

java - PDFBox LayerUtility - 将图层导入现有 PDF

java - java中计算一个数除以另一个数的次数并打印出来

java - 将 phonegap 的 R.java 导入我的插件?

java - ElasticSearch 日期映射

iphone - 如何识别 PDF 文档中的封面

jfreechart - 使用 JFreeChart 和 Apache PDFBOX 生成图表