python - 设计一个专门用于渲染文本的开源 OCR 引擎(截图)

所以我目前的个人项目是能够自动从游戏中抓取屏幕截图，对文本进行 OCR，并计算给定单词的出现次数。

在整个晚上都在查看不同的 OCR 解决方案后，我开始意识到大多数 OCR 包都是为扫描的文本设计的。如果有任何软件包可以可靠地读取屏幕文本，那么它们完全超出了该爱好者的预算。

我一直在阅读其他一些问题，我找到的最接近的是 OCR engines designed for screen-reading .

在我看来，阅读呈现的文本应该比打印和扫描的文本容易得多。线条总是笔直的，任何给定的字母都将始终以完全相同的像素表示形式出现(大多数情况下，无论如何)。另外，为什么不使用实际的字体文件(如果有的话)作为识别字符的备忘单？使用这样的系统，我们实际上可能会达到 100% 的准确率。

假设您有备忘单的字体文件，并且您的源图像是完全正方形且没有噪音，您将如何从屏幕上识别字符？

(我可以预见的问题是 ui 线条和图像可能会混淆任何粗略的像素猜测尝试。)

如果您已经知道专为屏幕阅读设计的免费/开源 OCR 包，请告诉我。不过，我有点怀疑这是否会出现，因为其他提问者似乎也没有得到线索。

首选 Python 界面，但乞丐不能成为选择者。

编辑:
为了澄清，我正在寻找专门设计用于从屏幕截图中读取文本的 OCR 解决方案的设计建议。 tesseract(在我链接的问题中提到)等流行工具充其量也很难使用，因为它们不是为这种源文件设计的。

最佳答案

所以我一直在考虑这个问题，我觉得最好的方法是计算每个 Blob /字形/字符中的像素数。这应该确实减少了我需要进行的区分字形的测试数量。

遗憾的是，我必须非常具体地说明字体。该软件将只能以正确的 dpi、正确的字体和粗细等识别字体。

这并不理想，我仍然希望看到有人对渲染文本设计 OCR 有更多了解；但它适用于我的有限情况。

关于python - 设计一个专门用于渲染文本的开源 OCR 引擎(截图)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4536763/