我想从图像或扫描文档中提取表格数据,并将标题字段映射到保险文档中的特定值。我尝试过逐行提取它们,然后使用它们在页面上的位置映射它们。我通过定义表开始和结束枢轴来给出表边界,但它没有给我正确的结果,因为标题有时有多行(我在 php 中实现了这一点)。我也想知道是否可以使用机器学习来实现同样的目的。
对于 pdf 文档,我使用了 tabula-java 这对我来说效果很好。图像也有类似的实现类型吗?
这些文档的类型与上面链接中的类似,但服务提供商不同,因此提取此类数据的通用方法将非常有用。
在上图中,我想要像 Make = YAMAHA、MODEL= FZ-S、CC= 153 等 map 值
谢谢。
最佳答案
我绝对会尝试Tesseract ,一个非常好的OCR引擎。我已经成功地使用它来阅读电子邮件中嵌入的各种文档(PDF、图像),我的一位同事将它用于与您的用例非常相似的事情 - 读取发票中的特定字段。
解析文档后,只需使用正则表达式即可选择感兴趣的字段。
我认为机器学习对您来说不会特别有用,除非您打算构建自己的 OCR 引擎。我会从现有的库开始,它们提供了非常好的性能。
关于php - 从图像或扫描文档中提取表格数据(非 pdf),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40673231/