regex - 从 OCR 图像文件中提取文本

标签 regex python-3.x python-tesseract

我正在尝试从 OCR 图像中提取一些字段。我正在使用 pytesseract 读取 OCR 图像文件,这按预期工作。

代码:

import pytesseract
from PIL import Image
import re

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract- 
OCR\tesseract.exe"

value = Image.open("ocr.JPG")
text = pytesseract.image_to_string(value)
print(text)

输出:

ALS 1 Emergency Base Rate
Y A0427 RE ABC
Anbulance Mileage Charge

Y A0425 RE ABC
Disposable Supplies
Y A0398 RH ABC

184800230, x

接下来,我必须从文本中提取 A0427 和 A0425.. 但问题是我没有循环遍历整行.. 它一次获取一个字符,这就是我的正则表达式不起作用的原因..

代码:

for line in text :
    print(line)
    x= re.findall(r'^A[0-9][0-9][0-9][0-9]', text)
    print(x)

最佳答案

也摆脱 for 循环,仅使用

x= re.findall(r'A[0-9][0-9][0-9][0-9]', text)

没有任何循环。 ('也删除 ^')

关于regex - 从 OCR 图像文件中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55934248/

相关文章:

regex - 在 python 正则表达式的集合中使用 *

python - 在 Python 中,如何以随机顺序打印文本文件中的行?

python - 如何从图像中提取虚线文本?

regex - 如何在Linux中仅用字母之间的下划线替换空格,忽略数字

python - 去除字符串中的逗号,用逗号和双引号包围/Python

python - 正则表达式捕获所有导入语句

python - Tesseract 没有拾取不同颜色的文本

Python tesseract 提高了 OCR 的准确性

javascript - 在Javascript中使用正则表达式匹配特殊字符 '-'

python - 保存上传的 Base64 数据会出现 TypeError : a bytes-like object is required, 而不是 'str'