我想使用 Tika 工具包来索引文档文件(pdf、docx...)和图像(通过 tesseract 插件)的内容。
我试过弹性摄取附件插件 ( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html ) 它工作得很好但没有内置 OCR。 而且我必须发送我的文件的 base64,所以高内存使用 + 弹性索引“数据”(base64)字段是无用的。
我正在考虑直接使用 Tika 工具包,然后在 ElasticSearch 中索引内容。
所以我想知道这是否是更好的方法?
最佳答案
我们创建了一个系统来处理文件(抓取 -> OCR -> 索引 -> 搜索)。它叫做Ambar .我们构建它的想法是为 Ingest Attachment 创建一个良好而可靠的替代品。
作为搜索引擎,我们使用 ElasticSearch 作为上下文提取器:Tika + Tesseract + ImageMagick + PDF 的自定义提取器。
我们制作它是为了提供一个简单但功能强大的替代方案,以替代我们自己的 Tika + ES 实现。
查看 Github以获取更多详细信息。
关于Elasticsearch 附件插件 vs 自己的 tika 实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40452555/