<分区>
有人知道用 python/ruby 编写的库,可以分析图像并提取其中的文本吗?
或者一本关于图像处理等的书...
PS:文本采用各种字体和格式,但清晰,Tl;Dr:没有验证码或类似内容。
<分区>
有人知道用 python/ruby 编写的库,可以分析图像并提取其中的文本吗?
或者一本关于图像处理等的书...
PS:文本采用各种字体和格式,但清晰,Tl;Dr:没有验证码或类似内容。
最佳答案
您可以使用 OpenCV,这是一个开源计算机视觉库,它具有 Python API。它被认为是当今的行业标准库。
OpenCV 官方网站:http://opencv.org/
如果您需要一些OpenCV-Python 教程,请访问:opencvpython.blogspot.com
您还可以查看此 SOF:Simple Digit Recognition OCR in OpenCV-Python
除此之外,OpenCV 样本还有一些 OCR 实现。
但我建议您使用Tesseract for OCR。它是最好的开源 OCR 引擎,由 HP 开发,但现在由 Google 处理。
Tesseract 网站:https://github.com/tesseract-ocr/tesseract
tesseract 的 Python API,Pytesser:https://github.com/RobinDavid/Pytesser
同时检查这个 SOF:How do I choose between Tesseract and OpenCV?
因此您可以使用 OpenCV 对图像进行预处理并使用 Tesseract 进行 OCR。
关于algorithm - 用于读取图像中文本的最佳 Python/Ruby 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11490191/