apache-tika - Apache Tika 不提取 RTF 文件的第一行，它只提取第一行的最后三个字符。

我在评论中添加了RTF文件。在文本编辑器中复制以下文本并另存为RTF格式。

BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("level1Missing.rtf"));
ParseContext pcontext = new ParseContext();
RTFParser rt = new RTFParser();
rt.parse(inputstream, handler, metadata, pcontext);
//getting the content of the document
System.out.println("Contents of the PDF :\n\n" + handler.toString());

最佳答案

在我看来，Apache Tika 没有问题。关键性在rtf文件中；在{\line {\b Level1} :\par}之前少了一个\par。

你可以试试这个另一个简单的文件:

{\rtf1\ansi{\fonttbl\f0\fswiss Helvetica;}\f0\par
This is some {\b bold} text.\par
}

如果在 This is some {\b bold} text.\par 之前删除 \par，tika 将提取第一行的最后一个字符。

关于apache-tika - Apache Tika 不提取 RTF 文件的第一行，它只提取第一行的最后三个字符。，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47218379/

上一篇：information-retrieval - 在原始文本上或在引理/词干处理之后计算单词 n-gram？

下一篇：Angular 4日历 Material

hadoop - Apache Tika 无法解析 HDFS 文件

android - 如何在 Android 上使用 Apache Tika

java - 使用 apache tika Parser 对象解析 .doc 和 .docx 文件格式的问题

lucene - Apache Tika 与 Apache Lucene

java - Apache Tika 和文档元数据

java - 如何区分可搜索的 pdf 和不可搜索的 pdf？

grails - 将apache-tika依赖项添加到grails项目中的正确方法是什么

用于嵌套 ZIP 文件处理的 Java 实用程序库

scala - 从 Tika LanguageIdentifier 转移到 Tika LanguageDetector