java - OneNote 对 Apache Tika 解析器的支持

标签 java apache-tika

我希望能够使用 apache tika 检测 .one、.onetoc、.onetoc2 文件的 mime 类型。然而从他们的文档https://tika.apache.org/1.14/formats.html似乎不支持它。使用 Tika 纯粹使用文件解析技术,我总是得到 application/octet-stream 而不是 application/onenote。

它们确实支持基于扩展名和基于名称的内省(introspection)来确定 mime 类型,但这并不可靠,因为我总是可以将文件命名为 *.one,并且它会将 mime 类型抛出为“application/onenote”,这是不正确的。

任何可用库上的任何指针都可以轻松检测给定文件是否属于 onenote 类型,或者是否有我在 Tika 中缺少的内容?

最佳答案

要进行 mime-magic 驱动的 OneNote 文件检测,您需要 Apache Tika 1.15 或更高版本。

对于 OneNote 解析(元数据、文本等),您要么需要等待 Apache 1.24 发布(预计 2020 年 3 月左右),要么从源代码自行构建,包括 Github pull request #303 中的补丁/TIKA-2224 .

如果您是 Tika + OneNote 用户,请非常感谢 Nicholas DiPiazza (谁做了大部分工作),以及 Tim Allison (谁帮助审查/指导/等)

关于java - OneNote 对 Apache Tika 解析器的支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41272195/

相关文章:

java - Primefaces photoCam 组件不渲染

java - Google App Engine 上的 Apache Tika 文本提取

java - Tika 在服务器模式下的性能

java - 如何使用登录Android

java - 从静态 block 调用静态方法

java - 在 Solr 中索引约 1TB 富文本文档的最佳方法是什么?

java - HSEARCH000151 : Unable to get input stream from object of type byte

Java/Spring : How to Figure out MimeType on an InputStream Without Consuming It

java - 输出说明

java - 我可以同时使用stripes标签库和spring mvc吗