我想制作一个在 pdf 中搜索单词的程序 使用 PDFBox。
这是我的小程序:
List<String> words ;// List of words
PDDocument document = PDDocument.load("D:\\INIT.pdf");
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
Comparing(content,words);//methode for searching those words on my text
System.out.println(content);
但是是否可以使用 getText
直接查看没有文本的 PDF?
getText
返回一个字符串。如果我们在 pdf 文件中有一个大文本,这个字符串可以包含相同的文本吗?当文本很大而不是这样时,是否有另一种类型可以用于这种情况由字符串支持???
最佳答案
我希望您在 PDFBox 中找到解决方案。
整个过程比看起来要困难得多。例如,PDF 文本被分成不连续的片段,并且空格通常表示为间隙而不是空格字符。既需要抽象片段,又需要保留人类可读文本与 PDF 中的底层片段之间的链接。这是相当棘手的。
无论如何,如果您在 PDFBox 中找不到满意的解决方案,ABCpdf 将为您做到这一点。例如,下面的链接显示了如何在 PDF 中查找并突出显示关键字。
我从事 ABCpdf .NET 软件组件的工作,因此我的回复可能会包含基于 ABCpdf 的概念。这只是我所知道的。 :-)
关于java - 使用 PDFBox 搜索单词的程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16520943/