我正在尝试使用 pytesseract 识别一些文本,但在此之前我必须将我拥有的图片转换为二进制图片。 请注意,我首先调整了图片的大小,以便 pytesseract 更易于阅读。
查看下面的原始图片、调整后的图片、我的代码和我得到的结果,这样您就可以理解我的问题了..
image = cv2.imread('original.png',0)
image = cv2.resize(image,None,fx=2,fy=2,interpolation=cv2.INTER_CUBIC)
cv2.imwrite("resized.png", image)
thresh = cv2.threshold(image, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
result = 255 - thresh
cv2.imwrite("after_threshold.png", result)
谢谢你的帮助:)
最佳答案
如果你删除调整大小,它似乎工作
Pytesseract 的输出
32 Force
120 Initiative
Prospection
25 agilité
53 Vitalité
5 Dommages
1 Résistance Neutre
1 Portée
7% Résistance Feu
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = cv2.imread('1.png', 0)
thresh = cv2.threshold(image, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
result = 255 - thresh
data = pytesseract.image_to_string(result, lang='eng',config='--psm 6')
print(data)
cv2.imshow('thresh', thresh)
cv2.imshow('result', result)
cv2.waitKey()
关于python - 字符串识别前阈值不正确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58102801/