Python,文字检测OCR

标签 python matlab opencv computer-vision ocr

我正在尝试从扫描的表单中提取数据。该表单具有类似于下图所示的标准格式:

enter image description here

我曾尝试使用 pytesseract (tesseract OCR) 来检测图像的文本,它在查找文本和将图像转换为文本方面做得不错。 然而,它基本上只给了我所有检测到的文本,而不保留数据的格式。

我希望能够执行如下操作:

找到一段特定的文本,然后找到它下方或旁边的关联数据。类似于这个问题使用 opencv Detect text region in image using Opencv

enter image description here

有没有一种方法可以让我基本上做到以下几点:

  1. 要么找到表单上的所有文本框,对每个框执行 OCR,看看哪个与“证人:”文本最匹配,然后找到紧靠其下方的部分,并对这些文本框执行单独的 OCR。
  2. 或者如果表格是标准的并且我知道“witness”文本部分的大致位置,我可以在 opencv 中指定它的大致位置,然后只提取下面的文本并对其执行 OCR。

编辑:我已尝试使用以下代码来检测文本的特定区域。然而,它并没有专门识别所有区域的文本。

import cv2

img = cv2.imread('t2.jpg')
mser = cv2.MSER_create()

img = cv2.resize(img, (img.shape[1]*2, img.shape[0]*2))   
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
vis = img.copy()

regions = mser.detectRegions(gray)
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions[0]]
cv2.polylines(vis, hulls, 1, (0,255,0)) 

cv2.imshow('img', vis)

结果如下:

enter image description here

最佳答案

我认为您已经在自己的帖子中找到了答案。 我最近做了类似的事情,我是这样做的:

//id_image was loaded with cv2.imread
temp_image = id_image[start_y:end_y,start_x:end_x]
img = Image.fromarray(temp_image)
text = pytesseract.image_to_string(img, config="-psm 7")

所以基本上,如果您的格式是预定义的,您只需要知道您想要文本(您已经知道)的字段的位置,裁剪它,然后应用 ocr (tesseract) 提取。

在这种情况下,您需要导入 pytesseract、PIL、cv2、numpy

关于Python,文字检测OCR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45685911/

相关文章:

python - 当你在 Python 中为一个术语分配一个新方法时,术语是什么?

matlab - 过滤向量

matlab - 高斯超几何函数 2F1

python - 设置值多索引 Pandas

python - 如何根据文本查找元素忽略 beautifulsoup 中的子标签

python - 我正在尝试将大学橄榄球队名单抓取到 Excel 文件中,需要帮助组织数据

c# - 在 C++ 项目中使用 C# GUI

Matlab向量到矩阵的转换

c++ - 车牌在符号上的分割

android - 如何使用三星 Galaxy S2 前置摄像头?