java - 使用 Tika 从大型 pdf 中提取文本

标签 java pdf extract apache-tika

我尝试从大型 pdf 中提取文本,但我只得到第一页,我需要将所有文本传递给字符串变量。

这是代码

public class ParsePDF {
    public static void main(String args[]) throws Exception {


    try {

      File file = new File("C:/vlarge.pdf");

      String content = new Tika().parseToString(file);

      System.out.println("The Content: " + content);

        }
        catch (Exception e) {
          e.printStackTrace();
        }
    }
}

最佳答案

来自Javadocs :

To avoid unpredictable excess memory use, the returned string contains only up to getMaxStringLength() first characters extracted from the input document. Use the setMaxStringLength(int) method to adjust this limitation.

调用 setMaxStringLength(-1) 将禁用此限制。

关于java - 使用 Tika 从大型 pdf 中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19074191/

相关文章:

Java - pdfbox 无法导入 jar?

java - 如何将 url 作为 pdf 下载到本地文件中?

r - 从 R 中的 anova (glm) 中提取残留偏差

html - 使用 JSoup 删除 HTML 标签之间的文本

java - Spring 全局异常处理程序 - 不是 MVC

java - commons-exec 命令行不接受 "*"?

java - 如何用java设置闹钟

java - Slf4j 自定义提供程序实现未被拾取

pdf - 如何将 RDLC 报告限制为 PDF 中的一页?

java - JAVA/Android中从字符串中提取多个子字符串