不幸的是,由于 secret 数据,我无法给出更具体的解释。
问题
所以我有一些文档,它们通常包含相同的信息,但具有不同的格式。在大多数情况下,我要查找的值位于文档中的关键字附近。 OCR 本身由 Google Cloud Vision API 负责,但处理不同格式的最佳方法是什么?
我的想法
...是训练一个分类器,检测我正在处理的格式,然后选择找到目标值的适当方法,我事先手动实现了。这既不方便也不可扩展。所以我正在寻找一些我告诉的算法,例如目标值在哪里,它是什么样的等等。
解决这个问题的最佳机器学习方法是什么,或者您有什么想法?
作为数据类型的示例:假设我有来自 20 个不同超市的收据,我希望找到总成本,其中问题是每个公司的收据看起来都不一样。
最佳答案
最近我不得不使用tesseract来处理类似的情况。 ,除了 OCR 工具本身,我没有使用任何 ML 方法,因为就像你说的,它不可扩展。
我认为分类器不会有返回,除非你有大量不同的布局,然后你必须决定如何为每个布局提取数据......
这在很大程度上取决于您需要提取的数据类型,但使用您的示例,如果您必须从所有不同的布局中提取总成本,您可以从每张收据中提取尽可能多的数字,并且根据一些因素对它们进行评分,例如:
- 如果是成本(美元或其他货币符号)
- 与“Total、Final、Sum 等”等常见关键字的距离
- 如果这是该收据的最高值(value)
- 您可能会想到的其他因素,这完全取决于您需要提取的数据
然后,您可以使用每张收据得分最高的单独成本来计算最终的总成本
关于image-processing - 针对不同格式的文档查找某一特定信息的最佳 OCR 方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56660862/