apache-tika - 如何在服务器模式下使用Tika

标签 apache-tika

在 Tika 的网站上,它说(关于 tika-app-1.2.jar)它可以在服务器模式下使用。有谁知道如何在该服务器运行后发送文档并从该服务器接收解析的文本?

最佳答案

Tika 支持两种“服务器”模式。更简单和原始的是 --server Tika-App 的标志。功能更强大,但也更新的是 JAX-RS JSR-311 server component ,这是一个额外的 jar。

Tika-App 网络服务器使用起来非常简单。只需使用 --server 启动 Tika-App标志,以及 --port ###标志告诉它监听哪个端口。然后,连接到该端口并向其发送一个文件。您将得到 html 版本。 NetCat 对此很有效,例如 java -jar tika-app.jar --server --port 12345接下来是 nc 127.0.0.1 12345 < MyFileToExtract会给你返回 html

JAX-RS JSR-311 server component支持一些不同的 url,例如元数据、纯文本等。您可以使用 java -jar tika-server.jar 启动服务器,然后使用您的输入文档对适当的 url 进行 HTTP put 调用,您将获得资源。 wiki page 上有大量详细信息和示例(包括使用curl 进行测试)

Tika App Network Server 相当简单,仅支持一种模式(提取为 HTML),通常用于测试/演示/原型(prototype)设计等。Tika JAXRS Server是一个完全 RESTful 服务,它使用 HTTP 协议(protocol),并公开了广泛的 Tika 模式。这是目前普遍推荐的通过网络和/或非 Java 堆栈与 Tika 交互的方式。

关于apache-tika - 如何在服务器模式下使用Tika,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12231630/

相关文章:

java - 我如何使用apache tika在命令行中获取有关word文件的元数据

android - 如何使用 android studio 将 TIKA 添加到 build.gradle 中?

java - 通过Java在RTF文件中搜索单词

java - 使用 Apache Tika 提取元数据并存储到 HashMap 中

java - 从远程 ftp 服务器提取文件内容,而不写入本地磁盘中的文件

Python-Tika 返回 PDF 的 "None"内容,但适用于 TIFF

mysql - Solr 5.1.0 - Apache TikaEntityProcessor 找不到我的文件

jakarta-ee - Wildfly 上的 Tika-Parsers 部署问题

html-parsing - 如何使用 Tika 从 html 中提取主要文本

java - 从 DataHandler 检测 MIME 类型