apache-tika - Apache Tika 不提取 RTF 文件的第一行,它只提取第一行的最后三个字符。

标签 apache-tika

我在评论中添加了RTF文件。在文本编辑器中复制以下文本并另存为RTF格式。

This is a view of RFT file when you will open in any RTF viewer.

BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("level1Missing.rtf"));
ParseContext pcontext = new ParseContext();
RTFParser rt = new RTFParser();
rt.parse(inputstream, handler, metadata, pcontext);
//getting the content of the document
System.out.println("Contents of the PDF :\n\n" + handler.toString());

Output of the above code is.

最佳答案

在我看来,Apache Tika 没有问题。关键性在rtf文件中;在{\line {\b Level1} :\par}之前少了一个\par

你可以试试这个另一个简单的文件:

{\rtf1\ansi{\fonttbl\f0\fswiss Helvetica;}\f0\par
This is some {\b bold} text.\par
}

如果在 This is some {\b bold} text.\par 之前删除 \par,tika 将提取第一行的最后一个字符。

关于apache-tika - Apache Tika 不提取 RTF 文件的第一行,它只提取第一行的最后三个字符。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47218379/

相关文章:

pdf - 尝试索引 PDF 时出现 Elasticsearch Parse Exception 错误

hadoop - Apache Tika 无法解析 HDFS 文件

android - 如何在 Android 上使用 Apache Tika

java - 使用 apache tika Parser 对象解析 .doc 和 .docx 文件格式的问题

lucene - Apache Tika 与 Apache Lucene

java - Apache Tika 和文档元数据

java - 如何区分可搜索的 pdf 和不可搜索的 pdf?

grails - 将apache-tika依赖项添加到grails项目中的正确方法是什么

用于嵌套 ZIP 文件处理的 Java 实用程序库

scala - 从 Tika LanguageIdentifier 转移到 Tika LanguageDetector