Elasticsearch 附件插件 vs 自己的 tika 实现

标签 elasticsearch apache-tika

我想使用 Tika 工具包来索引文档文件(pdf、docx...)和图像(通过 tesseract 插件)的内容。

我试过弹性摄取附件插件 ( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html ) 它工作得很好但没有内置 OCR。 而且我必须发送我的文件的 base64,所以高内存使用 + 弹性索引“数据”(base64)字段是无用的。

我正在考虑直接使用 Tika 工具包,然后在 ElasticSearch 中索引内容。

所以我想知道这是否是更好的方法?

最佳答案

我们创建了一个系统来处理文件(抓取 -> OCR -> 索引 -> 搜索)。它叫做Ambar .我们构建它的想法是为 Ingest Attachment 创建一个良好而可靠的替代品。

作为搜索引擎,我们使用 ElasticSearch 作为上下文提取器:Tika + Tesseract + ImageMagick + PDF 的自定义提取器。

我们制作它是为了提供一个简单但功能强大的替代方案,以替代我们自己的 Tika + ES 实现。

查看 Github以获取更多详细信息。

关于Elasticsearch 附件插件 vs 自己的 tika 实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40452555/

相关文章:

elasticsearch - 从日期字段获取在特定小时范围内匹配的文档

java - 使用 Apache Tika 在 solr 中提取 PDF 文件的内容

java - tika-app-1.7.jar 与 tika-server-1.7.jar

solr - 导入丰富的文档时,SOLR 是否有最佳实践 schema.xml?

java - 使用 tika 解析器的 XPath 应用程序

python - Elasticsearch 的upsert函数?

lucene - 使用 'whitespace' 分析器创建索引

angular - ./node_modules/@elastic/elasticsearch/lib/Connection.js 中出现错误 找不到模块 : Error: Can't resolve 'http'

Elasticsearch 集群发现 - 单播主机

java - Tika AutoDetectParser 返回空字符串?