tesseract - 从 tika-server 获取 hocr 输出

标签 tesseract apache-tika tika-server hocr

我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。

我对 hOCR 感兴趣输出，但只能成功获得纯文本格式的输出。

关注 wiki和 code ，我正在尝试使用 X-Tika-OCR... 配置 Tesseract HTTP header 。在这种情况下，我使用的是 X-Tika-OCRoutputType: hocr HTTP header ，但我得到了没有 HOCR 标签的纯文本输出或 html 输出。

我尝试了 /tika和 /rmeta端点。
curl我使用的命令:

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/tika" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/rmeta" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

我也尝试设置 Accept标题到 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个报错。

我在用:

Apache Tika 1.22

Tesseract 4.1.0-3.1.x86_64

红帽 7

最佳答案

通过检查TikaResourceTest的集成测试代码，我意识到缺少一个 HTTP header 。正确的命令应该包括 X-Tika-PDFOcrStrategy: ocr_only HTTP header 。查看更多 ocr & pdf parser docs

因此，命令将是:

curl -v -X PUT \
     --data-binary @file.pdf \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-PDFOcrStrategy: ocr_only" \
     -H "X-Tika-OCROutputType: hocr" \
     "http://tika-server:8081/tika"

关于tesseract - 从 tika-server 获取 hocr 输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59662119/

上一篇：python - 使用 Python 下载 Sharepoint 文件夹中的所有文件？

下一篇：php - 使用 PHP 从 PHP 文件中仅获取 HTML 代码？

java - Python tika 解析器错误 - 无法从 startServer 接收启动确认

java - JNIUS 和 TIKA - 尝试 parseToString 时出错

Python Tika 无法从 url 解析 pdf

Captcha上的Python图像处理如何去除噪声

python - 验证码识别最佳实践

ios - 如何排除 tesseract 中的特殊字符？

Python-Tika 返回 PDF 的 "None"内容，但适用于 TIFF

python - 使用 Tesseract python 进行数字识别

java - 我如何使用apache tika在命令行中获取有关word文件的元数据