当我在终端中调用它时,它工作得很好!
tesseract 1.jpg outPutFileHere -l fra
但我正在尝试让它与 tika 一起使用
import tika
import sys
from tika import parser
from tika import detector
tikedDocument = parser.from_file(TextImage)
对于相同的文本图像,我在 tika 上没有结果:(
你知道发生了什么事吗?
谢谢
最佳答案
例如,您需要提供名为“X-Tika-OCRLanguage”的 header :
headers = {
"X-Tika-OCRLanguage": "eng+nor"
}
parsed = parser.from_file(path, headers=headers)
关于python - 如何将 Tika python 与 Tesseract OCR 绑定(bind)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43652543/