java - 使用 PDFBox 搜索单词的程序

标签 java pdf pdfbox

我想制作一个在 pdf 中搜索单词的程序 使用 PDFBox。

这是我的小程序:

List<String> words ;// List of words 
        PDDocument document = PDDocument.load("D:\\INIT.pdf");              
        PDFTextStripper s = new PDFTextStripper();
        String content = s.getText(document);
        Comparing(content,words);//methode for searching those words on my text
        System.out.println(content);

但是是否可以使用 getText 直接查看没有文本的 PDF?

getText 返回一个字符串。如果我们在 pdf 文件中有一个大文本,这个字符串可以包含相同的文本吗?当文本很大而不是这样时,是否有另一种类型可以用于这种情况由字符串支持???

最佳答案

我希望您在 PDFBox 中找到解决方案。

整个过程比看起来要困难得多。例如,PDF 文本被分成不连续的片段,并且空格通常表示为间隙而不是空格字符。既需要抽象片段,又需要保留人类可读文本与 PDF 中的底层片段之间的链接。这是相当棘手的。

无论如何,如果您在 PDFBox 中找不到满意的解决方案,ABCpdf 将为您做到这一点。例如,下面的链接显示了如何在 PDF 中查找并突出显示关键字。

http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm

我从事 ABCpdf .NET 软件组件的工作,因此我的回复可能会包含基于 ABCpdf 的概念。这只是我所知道的。 :-)

关于java - 使用 PDFBox 搜索单词的程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16520943/

相关文章:

python - 如何使用selenium从网页下载嵌入的PDF?

PDFBox UTF16 字母

java - PDFBox 2.0.3 使用TextPosition坐标设置cropBox

java - 如何为特定类和包设置日志级别?

java - 刷新<s :select> tag on changing backing Java collection in Struts 2

javascript - 响应不提供任何输出以下载 PDF

java - 带有 PDFBox 的 GAE 上的临时文件创建错误

java - 使用java(Netbeans)中的GATE库进行POS标记

java - Spring、Hibernate、JDBC的关系

laravel - 在 dompdf 库中找不到 PDF 类