image-processing - 针对不同格式的文档查找某一特定信息的最佳 OCR 方法

不幸的是，由于 secret 数据，我无法给出更具体的解释。

问题

所以我有一些文档，它们通常包含相同的信息，但具有不同的格式。在大多数情况下，我要查找的值位于文档中的关键字附近。 OCR 本身由 Google Cloud Vision API 负责，但处理不同格式的最佳方法是什么？

...是训练一个分类器，检测我正在处理的格式，然后选择找到目标值的适当方法，我事先手动实现了。这既不方便也不可扩展。所以我正在寻找一些我告诉的算法，例如目标值在哪里，它是什么样的等等。

解决这个问题的最佳机器学习方法是什么，或者您有什么想法？

作为数据类型的示例:假设我有来自 20 个不同超市的收据，我希望找到总成本，其中问题是每个公司的收据看起来都不一样。

最佳答案

最近我不得不使用tesseract来处理类似的情况。，除了 OCR 工具本身，我没有使用任何 ML 方法，因为就像你说的，它不可扩展。

我认为分类器不会有返回，除非你有大量不同的布局，然后你必须决定如何为每个布局提取数据......

这在很大程度上取决于您需要提取的数据类型，但使用您的示例，如果您必须从所有不同的布局中提取总成本，您可以从每张收据中提取尽可能多的数字，并且根据一些因素对它们进行评分，例如:

然后，您可以使用每张收据得分最高的单独成本来计算最终的总成本

关于image-processing - 针对不同格式的文档查找某一特定信息的最佳 OCR 方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56660862/