我正在尝试在 OpenCV-Python (cv2) 中实现“数字识别 OCR”。它仅用于学习目的。我想学习 OpenCV 中的 KNearest 和 SVM 功能。
我有每个数字的 100 个样本(即图像)。我想和他们一起训练。
OpenCV 示例附带了一个示例 letter_recog.py
。但我仍然无法弄清楚如何使用它。我不明白样本,响应等是什么。另外,它首先加载了一个txt文件,我首先不明白。
稍后搜索了一下,我可以在 cpp 样本中找到一个 letter_recognition.data。我使用它并在 letter_recog.py 的模型中为 cv2.KNearest 做了一个代码(仅用于测试):
import numpy as np
import cv2
fn = 'letter-recognition.data'
a = np.loadtxt(fn, np.float32, delimiter=',', converters={ 0 : lambda ch : ord(ch)-ord('A') })
samples, responses = a[:,1:], a[:,0]
model = cv2.KNearest()
retval = model.train(samples,responses)
retval, results, neigh_resp, dists = model.find_nearest(samples, k = 10)
print results.ravel()
它给了我一个大小为 20000 的数组,我不明白它是什么。
问题:
1) 什么是 letter_recognition.data 文件?如何从我自己的数据集中构建该文件?
2) results.reval()
表示什么?
3) 我们如何使用 letter_recognition.data 文件(KNearest 或 SVM)编写一个简单的数字识别工具?
最佳答案
好吧,我决定在我的问题上锻炼自己来解决上述问题。我想要的是使用 OpenCV 中的 KNearest 或 SVM 功能实现一个简单的 OCR。下面是我做了什么以及如何做的。 (仅用于学习如何使用 KNearest 进行简单的 OCR)。
1) 我的第一个问题是关于 OpenCV 示例附带的 letter_recognition.data
文件。我想知道那个文件里面有什么。
它包含一个字母,以及该字母的 16 个特征。
还有 this SOF
帮我找到它。这 16 个特性在论文 Letter Recognition Using Holland-Style Adaptive Classifiers
中进行了解释。 .
(虽然最后有些功能没看懂)
2) 因为我知道,如果不了解所有这些功能,很难做到这种方法。我尝试了其他一些论文,但对于初学者来说都有点困难。
所以我决定将所有像素值作为我的特征。 (我并不担心准确性或性能,我只是希望它能够工作,至少准确度最低)
我为我的训练数据拍摄了下图:
(我知道训练数据量较少。但是,由于所有字母的字体和大小都相同,我决定尝试一下)。
为了准备训练数据,我在 OpenCV 中做了一个小代码。它做了以下事情:
- 它会加载图像。
- 选择数字(显然是通过轮廓查找和对字母的面积和高度施加限制以避免错误检测)。
- 围绕一个字母绘制边界矩形并等待
手动按键
。这次我们自己按数字键对应方框中的字母。 - 一旦按下相应的数字键,它就会将此框的大小调整为 10x10,并将所有 100 个像素值保存在一个数组(此处为样本)中,并将相应的手动输入的数字保存在另一个数组中(此处为响应)。
- 然后将两个数组保存在单独的
.txt
文件中。
在数字手动分类结束时,训练数据(train.png
)中的所有数字都由我们自己手动标注,如下图所示:
以下是我用于上述目的的代码(当然,不是那么干净):
import sys
import numpy as np
import cv2
im = cv2.imread('pitrain.png')
im3 = im.copy()
gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray,(5,5),0)
thresh = cv2.adaptiveThreshold(blur,255,1,1,11,2)
################# Now finding Contours ###################
contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)
samples = np.empty((0,100))
responses = []
keys = [i for i in range(48,58)]
for cnt in contours:
if cv2.contourArea(cnt)>50:
[x,y,w,h] = cv2.boundingRect(cnt)
if h>28:
cv2.rectangle(im,(x,y),(x+w,y+h),(0,0,255),2)
roi = thresh[y:y+h,x:x+w]
roismall = cv2.resize(roi,(10,10))
cv2.imshow('norm',im)
key = cv2.waitKey(0)
if key == 27: # (escape to quit)
sys.exit()
elif key in keys:
responses.append(int(chr(key)))
sample = roismall.reshape((1,100))
samples = np.append(samples,sample,0)
responses = np.array(responses,np.float32)
responses = responses.reshape((responses.size,1))
print "training complete"
np.savetxt('generalsamples.data',samples)
np.savetxt('generalresponses.data',responses)
现在我们进入训练和测试部分。
对于测试部分,我使用了下图,它的字母类型与我在训练阶段使用的相同。
对于训练,我们执行以下操作:
- 加载我们之前保存的
.txt
文件 - 创建我们正在使用的分类器的实例(在本例中为 KNearest)
- 然后我们使用 KNearest.train 函数来训练数据
出于测试目的,我们执行以下操作:
- 我们加载用于测试的图像
- 像之前一样处理图像并使用轮廓方法提取每个数字
- 为其绘制一个边界框,然后将其调整为 10x10,并将其像素值存储在一个数组中,如前所述。
- 然后我们使用 KNearest.find_nearest() 函数来找到最接近我们给定的项目。 (如果幸运的话,它会识别出正确的数字。)
我在下面的单个代码中包含了最后两个步骤(训练和测试):
import cv2
import numpy as np
####### training part ###############
samples = np.loadtxt('generalsamples.data',np.float32)
responses = np.loadtxt('generalresponses.data',np.float32)
responses = responses.reshape((responses.size,1))
model = cv2.KNearest()
model.train(samples,responses)
############################# testing part #########################
im = cv2.imread('pi.png')
out = np.zeros(im.shape,np.uint8)
gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)
contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)
for cnt in contours:
if cv2.contourArea(cnt)>50:
[x,y,w,h] = cv2.boundingRect(cnt)
if h>28:
cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)
roi = thresh[y:y+h,x:x+w]
roismall = cv2.resize(roi,(10,10))
roismall = roismall.reshape((1,100))
roismall = np.float32(roismall)
retval, results, neigh_resp, dists = model.find_nearest(roismall, k = 1)
string = str(int((results[0][0])))
cv2.putText(out,string,(x,y+h),0,1,(0,255,0))
cv2.imshow('im',im)
cv2.imshow('out',out)
cv2.waitKey(0)
它成功了,下面是我得到的结果:
在这里它以 100% 的准确率工作。我认为这是因为所有数字都是相同类型和相同大小的。
但无论如何,这对于初学者来说是一个好的开始(我希望如此)。
关于python - OpenCV-Python 中的简单数字识别 OCR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9413216/