php - 从图像或扫描文档中提取表格数据(非 pdf)

标签 php python image-processing machine-learning ocr

我想从图像或扫描文档中提取表格数据,并将标题字段映射到保险文档中的特定值。我尝试过逐行提取它们,然后使用它们在页面上的位置映射它们。我通过定义表开始和结束枢轴来给出表边界,但它没有给我正确的结果,因为标题有时有多行(我在 php 中实现了这一点)。我也想知道是否可以使用机器学习来实现同样的目的。

对于 pdf 文档,我使用了 tabula-java 这对我来说效果很好。图像也有类似的实现类型吗?

Insurance_Image

这些文档的类型与上面链接中的类似,但服务提供商不同,因此提取此类数据的通用方法将非常有用。

在上图中,我想要像 Make = YAMAHA、MODEL= FZ-S、CC= 153 等 map 值

谢谢。

最佳答案

我绝对会尝试Tesseract ,一个非常好的OCR引擎。我已经成功地使用它来阅读电子邮件中嵌入的各种文档(PDF、图像),我的一位同事将它用于与您的用例非常相似的事情 - 读取发票中的特定字段。

解析文档后,只需使用正则表达式即可选择感兴趣的字段。

我认为机器学习对您来说不会特别有用,除非您打算构建自己的 OCR 引擎。我会从现有的库开始,它们提供了非常好的性能。

关于php - 从图像或扫描文档中提取表格数据(非 pdf),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40673231/

相关文章:

php - 如何使用 PHP 原生函数和 Android 获取文件

php - 执行过多的未定义索引或 undefined variable 错误会影响服务器性能

iphone - 检测数字并处理它们?

python - 如何防止 pip 和 easy_install 删除临时目录?

android - 在 android 应用程序中运行 python 图像处理脚本

php - 如何在服务器上呈现网页(无 GUI)以供打印?

image - 尝试使用 ImageMagick 制作 9 张图像的 3 x 3 蒙太奇,但命令行命令出错

php - 如何在 PHP 中限制每个用户的搜索次数

javascript - 切换一组结果中的每个按钮

python - 如何使用 SDK 使用 SSL 的 -dot- 语法获取正确的 App Engine 模块主机名?