Elasticsearch 附件插件 vs 自己的 tika 实现

我想使用 Tika 工具包来索引文档文件(pdf、docx...)和图像(通过 tesseract 插件)的内容。

我试过弹性摄取附件插件 ( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html ) 它工作得很好但没有内置 OCR。而且我必须发送我的文件的 base64，所以高内存使用 + 弹性索引“数据”(base64)字段是无用的。

我正在考虑直接使用 Tika 工具包，然后在 ElasticSearch 中索引内容。

所以我想知道这是否是更好的方法？

最佳答案

我们创建了一个系统来处理文件(抓取 -> OCR -> 索引 -> 搜索)。它叫做Ambar .我们构建它的想法是为 Ingest Attachment 创建一个良好而可靠的替代品。

作为搜索引擎，我们使用 ElasticSearch 作为上下文提取器:Tika + Tesseract + ImageMagick + PDF 的自定义提取器。

我们制作它是为了提供一个简单但功能强大的替代方案，以替代我们自己的 Tika + ES 实现。

查看 Github以获取更多详细信息。

关于Elasticsearch 附件插件 vs 自己的 tika 实现，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40452555/