python - 使用 python 和 Tesseract OCR 从文本中提取特定内容

标签 python image ocr tesseract python-tesseract

我正在使用 tesseract OCR 从图像文件中提取文本 .

下面是我从图片中得到的示例文本:

Certificate No. Certificate Issued Date Acoount Reference Unique Doc. Reference IN-KA047969602415880 18-Feb-2016 01:39 PM NONACC(FI)/kakfscI08/BTM LAYOUT/KA-BA SUBIN-KAKAKSFCL0858710154264833O

如何从中提取证书编号？任何提示或解决方案都会在这里帮助我。

最佳答案

如果证书编号始终采用此处给出的结构(2 个字母、连字符、17 位数字)，您可以使用 regex:

import regex as re

# i took the entire sequence originally but this is just an example
sequence = 'Reference IN-KA047969602415880 18-Feb-2016 01:39'
re.search('[A-Z]{2}-.{17}', seq).group()
#'IN-KA047969602415880'

.search 搜索您指定的特定模式，.group() 返回第一个结果(在本例中只有一个)。您可以在给定的字符串中搜索类似的内容，我建议查看 regex here .

关于python - 使用 python 和 Tesseract OCR 从文本中提取特定内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57952052/

上一篇：python - 在 Python 脚本中运行带有 "live"输出的 bash 脚本？

下一篇：python - 如何从不一致的字符串列表中获取子字符串？

Python httplib.HTTPS连接和密码

python - 来自isoformat : argument must be str Django

python - 如何 "one hot encode"Tensorflow 数据集？

r - 使用 n-gram 和 R 进行纠错

html - 为什么流体背景 SVG 文件不能在所有尺寸下正确显示？

image - 如何使用spring mvc显示mysql数据库中的图像

c# - 下载时如何调整图像大小？

java - OCR 中的滑动窗口需要很多时间

java - 配置 OCR JAVA Asprise