python - 设计一个专门用于渲染文本的开源 OCR 引擎(截图)

标签 python screen-scraping ocr

所以我目前的个人项目是能够自动从游戏中抓取屏幕截图,对文本进行 OCR,并计算给定单词的出现次数。

在整个晚上都在查看不同的 OCR 解决方案后,我开始意识到大多数 OCR 包都是为扫描的文本设计的。如果有任何软件包可以可靠地读取屏幕文本,那么它们完全超出了该爱好者的预算。

我一直在阅读其他一些问题,我找到的最接近的是 OCR engines designed for screen-reading .

在我看来,阅读呈现的文本应该比打印和扫描的文本容易​​得多。线条总是笔直的,任何给定的字母都将始终以完全相同的像素表示形式出现(大多数情况下,无论如何)。另外,为什么不使用实际的字体文件(如果有的话)作为识别字符的备忘单?使用这样的系统,我们实际上可能会达到 100% 的准确率。

假设您有备忘单的字体文件,并且您的源图像是完全正方形且没有噪音,您将如何从屏幕上识别字符?

(我可以预见的问题是 ui 线条和图像可能会混淆任何粗略的像素猜测尝试。)

如果您已经知道专为屏幕阅读设计的免费/开源 OCR 包,请告诉我。不过,我有点怀疑这是否会出现,因为其他提问者似乎也没有得到线索。

首选 Python 界面,但乞丐不能成为选择者。

编辑:
为了澄清,我正在寻找专门设计用于从屏幕截图中读取文本的 OCR 解决方案的设计建议。 tesseract(在我链接的问题中提到)等流行工具充其量也很难使用,因为它们不是为这种源文件设计的。

最佳答案

所以我一直在考虑这个问题,我觉得最好的方法是计算每个 Blob /字形/字符中的像素数。这应该确实减少了我需要进行的区分字形的测试数量。

遗憾的是,我必须非常具体地说明字体。该软件将只能以正确的 dpi、正确的字体和粗细等识别字体。

这并不理想,我仍然希望看到有人对渲染文本设计 OCR 有更多了解;但它适用于我的有限情况。

关于python - 设计一个专门用于渲染文本的开源 OCR 引擎(截图),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4536763/

相关文章:

java - tesseract/tesjeract 在实例化时导致应用程序崩溃

ios - Tesseract OCR 无法识别除法符号 "÷"

python - 如何识别扫描的 PDF 文件中的图像?

Python - PayPal 定期付款 - 未显示协议(protocol)详细信息

python - 记录函数时如何引用 "True-like"和 "False-like"?

Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法

jquery - HTML 解析 - 从 div 内的表中获取数据?

python - 如何使用 scrapy 从具有数据库的网页中提取数据

python - Ubuntu 上的 "Daemon"- 登录失败

python - 在 Python 中重载标准括号 ("()")