tesseract - 从 tika-server 获取 hocr 输出

标签 tesseract apache-tika tika-server hocr

我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。

我对 hOCR 感兴趣输出,但只能成功获得纯文本格式的输出。

关注 wikicode ,我正在尝试使用 X-Tika-OCR... 配置 Tesseract HTTP header 。在这种情况下,我使用的是 X-Tika-OCRoutputType: hocr HTTP header ,但我得到了没有 HOCR 标签的纯文本输出或 html 输出。

我尝试了 /tika/rmeta端点。
curl我使用的命令:

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/tika" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/rmeta" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

我也尝试设置 Accept标题到 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个报错。

我在用:
  • Apache Tika 1.22
  • Tesseract 4.1.0-3.1.x86_64
  • 红帽 7
  • 最佳答案

    通过检查TikaResourceTest的集成测试代码,我意识到缺少一个 HTTP header 。正确的命令应该包括 X-Tika-PDFOcrStrategy: ocr_only HTTP header 。查看更多 ocr & pdf parser docs

    因此,命令将是:

    curl -v -X PUT \
         --data-binary @file.pdf \
         -H "Content-Type: application/pdf" \
         -H "X-Tika-PDFOcrStrategy: ocr_only" \
         -H "X-Tika-OCROutputType: hocr" \
         "http://tika-server:8081/tika"
    
    

    关于tesseract - 从 tika-server 获取 hocr 输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59662119/

    相关文章:

    pdfbox - 使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗?

    java - Python tika 解析器错误 - 无法从 startServer 接收启动确认

    java - JNIUS 和 TIKA - 尝试 parseToString 时出错

    Python Tika 无法从 url 解析 pdf

    Captcha上的Python图像处理如何去除噪声

    python - 验证码识别最佳实践

    ios - 如何排除 tesseract 中的特殊字符?

    Python-Tika 返回 PDF 的 "None"内容,但适用于 TIFF

    python - 使用 Tesseract python 进行数字识别

    java - 我如何使用apache tika在命令行中获取有关word文件的元数据