python - 如何将 Tika python 与 Tesseract OCR 绑定(bind)?

标签 python apache ocr tesseract apache-tika

当我在终端中调用它时,它工作得很好!

tesseract 1.jpg outPutFileHere -l fra

但我正在尝试让它与 tika 一起使用

import tika
import sys
from tika import parser
from tika import detector
tikedDocument = parser.from_file(TextImage)

对于相同的文本图像,我在 tika 上没有结果:(

你知道发生了什么事吗?

谢谢

最佳答案

例如,您需要提供名为“X-Tika-OCRLanguage”的 header :

headers = {
    "X-Tika-OCRLanguage": "eng+nor"
}
parsed = parser.from_file(path, headers=headers)

关于python - 如何将 Tika python 与 Tesseract OCR 绑定(bind)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43652543/

相关文章:

apache - httpclient 无法发送两个以上的请求

apache - http和https如何使用相同的端口

python-3.x - 将 image_to_osd 方法与 pytesseract 结合使用时出错

python - 计算 OCR 精度

python - 在单个方法上启用 django 的 TEMPLATE_STRING_IF_INVALID

python - 在 Python 类中按字母顺序排列函数

python - mod_wsgi 错误 - class.__dict__ 在受限模式下不可访问

c# - Tesseract OCR Library - 学习字体

python gstreamer 播放多个视频流

python - 在python中使用opencv显示的图像对于屏幕而言太大