java - Tika 在服务器模式下的性能

标签 java apache-tika

我阅读了一些文章,认为服务器模式下的 tika 可以提高性能。有人能解释一下怎么做吗?我们能否在 Java 应用程序中实现类似的功能以获得更好的性能?

Running tika in server mode

最佳答案

在您提供的示例中,当使用 jar 作为独立应用程序执行 tika 时,在实际处理 pdf 文件之前会执行其他步骤。您可以大致将其分为3:

  1. JVM 已实例化
  2. 加载并配置 Tika 类(例如:解析器等...)
  3. (只有此时)tika 才会执行内容处理

在服务器模式下,前两个步骤在服务器启动时执行,并且准备好在收到文件时处理文件。

如果应用程序对输入数据执行某些处理,并且处理时间明显少于实例化和配置应用程序,则您可以在应用程序中执行相同的操作。

具体实现可以看tika source code

关于java - Tika 在服务器模式下的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22318469/

相关文章:

java - 单元测试 : Entry name 'res/layout/test_toolbar.xml' collided

java - 用 Java 管理高度重复的代码和文档

python - 如何使用 OCR 有效地从 PDF 文件目录中提取文本?

java - 在 Android studio 中替换导航栏中的 fragment 时出错

Java 字符串时间格式

java - 部署具有下降逆向工程保护的跨平台Java桌面应用程序?

java - Apache POI api 和 Apache Tika Api 之间的区别?

java - 添加字段 SolrJ Tika 时出错

java - "java.lang.SecurityException: Prohibited package name: java.sql"错误仅在 Eclipse 外部执行时发生

java - 通过 Apache Commons Compress 检测压缩类型