如何使用 solr 6.4.1 配置 Tika OCR。 我索引了包括 PDF、图像和 MS Office 文档在内的文档,但出现了问题 Tika 无法从图像以及 PDF 和 MS Office 文档内的图像中提取文本。为此我研究了使用 Tika OCR。 为此,我正在安装 tika-app-1.7.jar 和 Tesseract,但我不知道如何使用我的 solr 核心配置它们。
最佳答案
您不需要做任何特别的事情。只需为您的发行版获取 Tesseract OCR 设置即可 install 它在系统上。确保您的 PATH 变量具有 Tesseract 主目录的条目,并且 TESSDATA_PREFIX 变量已设置并且也指向 Tesseract 主目录。重新启动 Solr 就可以了。当您通过 /update/extract
处理程序将文档推送到索引时,您应该能够看到 OCR 组件。
默认情况下,Tesseract 仅附带英文模型。从 here 获取其他语言的模型.
关于solr - 使用 solr 6.4.1 配置 Tesseract,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43017921/