python - Tesseract OCR 无法识别任何字符

标签 python opencv tesseract python-tesseract

我正在开发一个需要字符识别作为其中一部分的项目。我使用的是 IAM 的手写数据集，因此所有图像或多或少都是在相同条件下拍摄的。我正在使用数据集提供的单词图片并按照以下步骤操作

二值化和阈值化
将单词分成组成它的字符
调整提取字符的大小
让 tesseract 找出英文字母是什么

我想要实现的目标是将一个人文档的字符存储在按字母表分类的文件夹中，并可能稍后从它们中形成一个模板。为此，我需要知道它是哪个角色。
这是我得到的结果 -

所有字符均已正确分段(对于大多数情况)。这更像是一个 tesseract 问题，而不是一个 python 问题，但我使用 python 编写脚本并通过 pytesseract 包装器调用 tesseract。
我正在使用 OpenCV 来操作图像。这些字母矩阵的图像作为输入发送到 tesseract(由 pytesseract 处理)。我向你保证，输入不是问题。我还需要做些什么才能让 tesseract 正常工作吗？

这些字符都无法识别。

最佳答案

超正方体 doesn't support handwritten text出色地。您应该尝试 ABBYY OCR 或其他免费库，例如 Lipi Toolkit .

关于python - Tesseract OCR 无法识别任何字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43172644/

上一篇：python - 按帧切割视频，仅保存每三帧？

下一篇：python - 在视频中绘图

相关文章：

python - OpenCV 去除背景

python - 如何使用python tesseract仅设置init参数？

python - 导入外部包的正确约定是什么？

C++ 或 Python 作为 GUI 编程的起点？

c++ - 调用 cv::calibrateCamera() 失败

iphone - OpenCV iPhone 相机，更改 CV_CAP_PROP_IOS_DEVICE_ * 没有效果

c# - OCR 引擎从图像中捕获字符

python - 通过 virtualenv 在 AWS Lambda 上进行 Tesseract OCR

python - 具有多个提交元素的 POST 表单

python - 如何使用 python 加密/解密任意长度的二进制文件？