java - Tika 返回空字符串

标签 java apache-tika

我正在使用 Apache Tika 1.14 和 pdf box 2.0.5。当我尝试从 pdf 文档中提取内容时,它返回空字符串。

import java.io.File;
import java.io.IOException;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

public class Test {
    public static void main(String args[]) throws IOException, TikaException{
        String filePath = "sample.pdf";

        Tika tika = new Tika();
        String content = tika.parseToString(new File(filePath));

        System.out.println(content);
    }
}

以下是我正在使用的 Maven 依赖项。

<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-core -->
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>1.14</version>
    </dependency>


    <!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
    <dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.5</version>
    </dependency>

最佳答案

您需要将“tika-parsers”库添加到您的项目中。添加以下依赖项并重试。

<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-parsers -->
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.14</version>
</dependency>

关于java - Tika 返回空字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43114495/

相关文章:

java tika如何将html转换为保留特定元素的纯文本

java - 在 Java 中将 GrobidExtractor.properties 传递给 Tika?

java - 调整大小时 JButton 消失

java - 如何解决我的 Apache Tika 代码中的以下 "NoClassDefFoundError"问题?

java - 下面提到的使用 org.springframework.web.client.RestTemplate RestTemplate 的潜在问题是什么?

java - 是否可以将 Maven 阶段添加到 IntelliJ?

java - 使用apache tika获取文档文件中的嵌入式资源

java - 通过使用java,我如何计算字数,其结果与MS-Office字数统计功能相同

java - 如何从 Android Studio logcat 中排除某些错误?

java - 将 lambda 转换为 Function<T, R> 失败