image-processing - 针对不同格式的文档查找某一特定信息的最佳 OCR 方法

标签 image-processing machine-learning ocr data-science google-cloud-vision

不幸的是,由于 secret 数据,我无法给出更具体的解释。

问题

所以我有一些文档,它们通常包含相同的信息,但具有不同的格式。在大多数情况下,我要查找的值位于文档中的关键字附近。 OCR 本身由 Google Cloud Vision API 负责,但处理不同格式的最佳方法是什么?

我的想法

...是训练一个分类器,检测我正在处理的格式,然后选择找到目标值的适当方法,我事先手动实现了。这既不方便也不可扩展。所以我正在寻找一些我告诉的算法,例如目标值在哪里,它是什么样的等等。

解决这个问题的最佳机器学习方法是什么,或者您有什么想法?

作为数据类型的示例:假设我有来自 20 个不同超市的收据,我希望找到总成本,其中问题是每个公司的收据看起来都不一样。

最佳答案

最近我不得不使用tesseract来处理类似的情况。 ,除了 OCR 工具本身,我没有使用任何 ML 方法,因为就像你说的,它不可扩展。

我认为分类器不会有返回,除非你有大量不同的布局,然后你必须决定如何为每个布局提取数据......

这在很大程度上取决于您需要提取的数据类型,但使用您的示例,如果您必须从所有不同的布局中提取总成本,您可以从每张收据中提取尽可能多的数字,并且根据一些因素对它们进行评分,例如:

  1. 如果是成本(美元或其他货币符号)
  2. 与“Total、Final、Sum 等”等常见关键字的距离
  3. 如果这是该收据的最高值(value)
  4. 您可能会想到的其他因素,这完全取决于您需要提取的数据

然后,您可以使用每张收据得分最高的单独成本来计算最终的总成本

关于image-processing - 针对不同格式的文档查找某一特定信息的最佳 OCR 方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56660862/

相关文章:

Android 自动裁剪相机拍摄的图像

c++ - 统一缩放不同图像

python - 数据集中的SettingWithCopyWarning

machine-learning - 决策树算法名称 "c4.5"的含义是什么?

java - 有没有办法用 MLKit 检测文本的大小

android - OCR简单示例android使用tesseract编译报错

java - 以编程方式使图像的背景透明或变白

python - 如何在笔记本中绘制 keras 激活函数

python - 改进图片以检测区域内的字符

将BMP转换为灰度图