java - Tika AutoDetectParser 返回空字符串?

标签 java ant apache-tika

我正在尝试使用 Tika 的 AutoDetectParser 提取文件内容。 我最初认为这是一个依赖性问题,但无法理解为什么现在我将所有 tika-app 都包含在我的 jar 中。

AutoDetect Parser 在此处返回空字符串:

BodyContentHandler handler = new BodyContentHandler();  
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
FileInputStream mypdfstream = new FileInputStream(new File("mypdf.pdf"));
parser.parse(mypdfstream,handler,metadata,context);
System.out.println(handler.toString());

更让我困惑的是,使用标准的 PDFParser 效果很好......:

BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
FileInputStream mypdfstream = new FileInputStream(new File("mypdf.pdf"));
PDFParser pdfparser = new PDFParser();
pdfparser.parse(mypdfstream,handler,metadata,context);
System.out.println(handler.toString());

我已将 tika-app 和 tika-parsers jar 包含在我的类路径中,并将它们包含在 ant 创建的 jar 中。

build.xml的相关部分

<javac srcdir="${src}" destdir="${build}">
                <classpath>
                        <pathelement path = "lib/tika-app-1.11.jar"/>
                        <pathelement path = "lib/tika-parsers-1.11.jar"/>
                </classpath>
 </javac>

<jar jarfile="${dist}/lib/MyProject-${DSTAMP}.jar" basedir="${build}">
        <zipgroupfileset dir="lib" includes="tika-app-1.11.jar"/>
        <zipgroupfileset dir="lib" includes="tika-parsers-1.11.jar"/>
</jar>

编辑:我用 parser.getSupportTypes(context)) 查看了我的 supportedTypes 列表,它是空的。正如从 parser.getParsers() 返回的解析器列表一样。

所以也许这是另一个依赖性问题?考虑到包含 tika-app,这真的让我感到惊讶。

最佳答案

我有同样的问题,我已经更正了像这样再次在我的 Pom.xml 上添加 Tika Core 和 Parser 依赖项,然后在 Eclipse 上更新 Maven。

    <dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-core</artifactId>
      <version>1.18</version>
    </dependency>
    <dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-parsers</artifactId>
      <version>1.18</version>
    </dependency>

关于java - Tika AutoDetectParser 返回空字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34403499/

相关文章:

java - 防止 Tika 使用 TNEFParser

java - 从我的网络应用程序发送邮件

ant - AntCall 和 Ant 任务有什么区别?

java - 如何在 Emacs 中为 Android 开发?

java - 无法读取单元测试成功率,可以读取jacoco生成的单元测试覆盖率

drupal - 用于阿拉伯语 PDF 的 Solr

hadoop - 如何使用 hadoop Map reduce 处理/提取 .pst

java - GWT 是否有一些默认的空 AsyncCallback 实现?

java - 有没有办法防止CHECKSTYLE :OFF being used

java - 如何在 Java 中舍入一个小的负 double 以不导致负零