java - 如何使用 Apache Tika 从 .wps 文件中提取文本?

标签 java apache-tika

我正在使用 Tika 从多种类型的文档中提取文本。 java -jar tika-app-1.10.jar -T [输入文件] 我意识到 Tika-1.10 可以检测 .wps 文件(java -jar tika-app-1.10.jar -m [.wps] 正在返回元数据),但它无法从 .wps 文件中提取文本(java - jar tika-app-1.10.jar -T [.wps] 文件不返回任何内容)。有没有其他方法可以从Java中的wps文件中提取文本? 任何帮助是极大的赞赏 谢谢

最佳答案

从 Tika 1.13 开始,我们没有 wps 文件的解析器。我们确实支持旧的 Works 7.0 电子表格,但不支持 wps。请在我们的 JIRA 上打开问题如果您希望我们增加支持。 (坦白说,我不知道这需要做多少工作)。

关于java - 如何使用 Apache Tika 从 .wps 文件中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32845197/

相关文章:

java - Android Firebase 如何从 firebase 获取徽章计数响应

java - 在ListView/ArrayAdapter中更新图像

Java多个对象返回相同的信息

java - 合并两个 PDF 文件——一个作为背景,一个作为前景

java - 避免在 Magnolia 请求中使用文件扩展名

java - 防止 Tika 使用 TNEFParser

grails - Grails Tika插件-如何将文件从数据库发送到tika进行解析

java - 如何检测 mime 类型是否用于可执行文件?

pdf - Solr ExtractingRequestHandler为pdf文档提供空内容

java - 使用 POI 或 Tika 提取文本,流到流,无需将整个文件加载到内存中