php - 从图像或扫描文档中提取表格数据(非 pdf)

我想从图像或扫描文档中提取表格数据，并将标题字段映射到保险文档中的特定值。我尝试过逐行提取它们，然后使用它们在页面上的位置映射它们。我通过定义表开始和结束枢轴来给出表边界，但它没有给我正确的结果，因为标题有时有多行(我在 php 中实现了这一点)。我也想知道是否可以使用机器学习来实现同样的目的。

对于 pdf 文档，我使用了 tabula-java 这对我来说效果很好。图像也有类似的实现类型吗？

这些文档的类型与上面链接中的类似，但服务提供商不同，因此提取此类数据的通用方法将非常有用。

在上图中，我想要像 Make = YAMAHA、MODEL= FZ-S、CC= 153 等 map 值

谢谢。

最佳答案

我绝对会尝试Tesseract ，一个非常好的OCR引擎。我已经成功地使用它来阅读电子邮件中嵌入的各种文档(PDF、图像)，我的一位同事将它用于与您的用例非常相似的事情 - 读取发票中的特定字段。

解析文档后，只需使用正则表达式即可选择感兴趣的字段。

我认为机器学习对您来说不会特别有用，除非您打算构建自己的 OCR 引擎。我会从现有的库开始，它们提供了非常好的性能。

关于php - 从图像或扫描文档中提取表格数据(非 pdf)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40673231/

相关文章：

php - 如何使用 PHP 原生函数和 Android 获取文件