我正在从事一个项目,该项目需要为具有丰富背景的图像提供准确的 OCR 结果。所以我比较了两个 OCR(其中之一是 Tesseract)的结果来做出我的选择。关键是结果受到预处理步骤的强烈影响,尤其是图像二值化。我提取了另一个 OCR 的二值化图像并将其传递给 Tesseract,这将 Tesseract 的结果提高了 30-40%。
我有两个问题,你的回答对我很有帮助:
提前致谢 :)
最佳答案
我想我已经找到了问题的答案:
1- 使用的二值化算法是 Otsu 阈值。你可以看到here在第 179 行。
2-要获取二值化图像,可以调用tesseract api中的一个方法:
PIX* thresholded = api->GetThresholdedImage(); //thresholded must be freed
关于ocr - Tesseract OCR 中使用了什么阈值(二值化)算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29380355/