我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。
我对 hOCR 感兴趣输出,但只能成功获得纯文本格式的输出。
关注 wiki和 code ,我正在尝试使用 X-Tika-OCR...
配置 Tesseract HTTP header 。在这种情况下,我使用的是 X-Tika-OCRoutputType: hocr
HTTP header ,但我得到了没有 HOCR 标签的纯文本输出或 html 输出。
我尝试了 /tika
和 /rmeta
端点。curl
我使用的命令:
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/tika" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/rmeta" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
我也尝试设置
Accept
标题到 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个报错。我在用:
最佳答案
通过检查TikaResourceTest
的集成测试代码,我意识到缺少一个 HTTP header 。正确的命令应该包括 X-Tika-PDFOcrStrategy: ocr_only
HTTP header 。查看更多 ocr & pdf parser docs
因此,命令将是:
curl -v -X PUT \
--data-binary @file.pdf \
-H "Content-Type: application/pdf" \
-H "X-Tika-PDFOcrStrategy: ocr_only" \
-H "X-Tika-OCROutputType: hocr" \
"http://tika-server:8081/tika"
关于tesseract - 从 tika-server 获取 hocr 输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59662119/