我正在开发一个需要字符识别作为其中一部分的项目。我使用的是 IAM 的手写数据集,因此所有图像或多或少都是在相同条件下拍摄的。我正在使用数据集提供的单词图片并按照以下步骤操作
- 二值化和阈值化
- 将单词分成组成它的字符
- 调整提取字符的大小
- 让 tesseract 找出英文字母是什么
我想要实现的目标是将一个人文档的字符存储在按字母表分类的文件夹中,并可能稍后从它们中形成一个模板。为此,我需要知道它是哪个角色。
这是我得到的结果 -
所有字符均已正确分段(对于大多数情况)。这更像是一个 tesseract 问题,而不是一个 python 问题,但我使用 python 编写脚本并通过 pytesseract 包装器调用 tesseract。
我正在使用 OpenCV 来操作图像。这些字母矩阵的图像作为输入发送到 tesseract(由 pytesseract 处理)。我向你保证,输入不是问题。我还需要做些什么才能让 tesseract 正常工作吗?
这些字符都无法识别。
最佳答案
超正方体 doesn't support handwritten text出色地。您应该尝试 ABBYY OCR 或其他免费库,例如 Lipi Toolkit .
关于python - Tesseract OCR 无法识别任何字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43172644/