solr - 使用 solr 6.4.1 配置 Tesseract

标签 solr solr4 apache-tika sunspot-solr

如何使用 solr 6.4.1 配置 Tika OCR。 我索引了包括 PDF、图像和 MS Office 文档在内的文档,但出现了问题 Tika 无法从图像以及 PDF 和 MS Office 文档内的图像中提取文本。为此我研究了使用 Tika OCR。 为此,我正在安装 tika-app-1.7.jar 和 Tesseract,但我不知道如何使用我的 solr 核心配置它们。

最佳答案

您不需要做任何特别的事情。只需为您的发行版获取 Tesseract OCR 设置即可 install 它在系统上。确保您的 PATH 变量具有 Tesseract 主目录的条目,并且 TESSDATA_PREFIX 变量已设置并且也指向 Tesseract 主目录。重新启动 Solr 就可以了。当您通过 /update/extract 处理程序将文档推送到索引时,您应该能够看到 OCR 组件。

默认情况下,Tesseract 仅附带英文模型。从 here 获取其他语言的模型.

关于solr - 使用 solr 6.4.1 配置 Tesseract,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43017921/

相关文章:

search - Lucene中同一存储位置上的多个索引器

solr - solr 中的 qf 没有给指定的字段任何提升

java - 使用 SolrJ 和 Solr4 进行分面

SolrCloud 与独立 Solr

java - 使用java查找wma文件的mime类型

tomcat - 在 solr 中声明多个实体时出错

mysql - solr 数据导入处理程序在本地主机上工作,而不是在服务器上工作

solr - Solr:无法搜索包含字符的数字

java - 如何从网站 url 获取 html 元素名称

apache - 尝试覆盖 Apache Tika 0.9 从 PDFBOX 1.4.0 到 PDFBOX 1.6.0 的依赖关系