ocr - 用于机器打印文本的 ICR？

我知道 ICR 基本上用于手写(手写)数据识别，但是我们可以利用 ICR 来提取扭曲(质量差)的机器打印文本吗？

如果不是，解决以下问题的最佳方法是什么

我有一个非结构化文档，可能会包含 2 页或更多页，文档中很少有需要手写的日期字段。现在我想将其转换为文本文件。我尝试过一些全页 ocr(omnipage 和 abbyy 等)工具，它们具有 ICR 模块可以转换为文本文件。他们擅长全页 OCR，但当遇到手写日期时，它会放置垃圾字符，而不是使用 ICR 模块。我不想使用像 parascript 和 A2ia 这样的表单处理工具，它们是基于位置的，并且只能处理结构化文档。

或者我们可以使用 ICR 来转换机器打印文本和手写文本(无论如何，在这种情况下它适用于手写返回日期)

这里我的目标是从非结构化文档中获取文本文件输出，其中手写文本很少(如日期、数字)

最佳答案

I have tried some fullpage ocr(omnipage and abbyy etc) tools which have ICR modules

这是不正确的，这解释了糟糕的结果。如果您尝试过 OmniPage 和 ABBYY FineReader 的零售版本，这些软件包仅支持 OCR，不支持 ICR。

I don't want go with form processing tools

您可能必须以某种方式这样做，但该方法有一些变化。这必须是两种技术的结合，要么是开箱即用的，要么是自行创建的，但这需要付出更多的努力，而不仅仅是安装和运行它。

今天，假设没有可以提供高质量结果的非结构化文本 ICR 软件。全页 OCR 或非结构化文本 OCR(机器文本)在机器文本上产生高质量结果，在手写上产生垃圾结果。你是对的，ICR 意味着区域识别，它允许提供数据类型和后端词典以改进手写识别。

对于最简单、最快的方法，也可能是最经济且劳动强度最小的，我会使用非结构化表单处理包，例如 ABBYY FlexiCapture ( http://www.wisetrend.com/abbyy_flexicapture.shtml )。它需要一些非编程设置来“定位”区域。区域可能会改变位置，该软件仍然会找到它们，然后使用适当的算法(OCR/ICR)来读取区域内容。支持OCR、ICR、OMR(复选标记)、BCR(条形码)。还具有内置全页 OCR。我在内部使用该软件，转售它，并且拥有超过 14 年的微调经验。

对于一种可能更经济的方式，但可能需要手动结合至少两种技术(两次购买而不是一次加人工 - 最终可能不是最经济的)，我会使用某种 OCR SDK用于机器文本，以及用于手写区域的某种支持 ICR 的 SDK。根据这些区域位置的一致性，您也许可以只提供坐标。如果它们发生变化，则需要对区域位置进行更深入的分析，以将它们传递给 ICR。需要返回 ICR 识别的文本才能将其插入到 OCRed 文本中的适当位置。

在我看来，现在有很多开箱即用的工具可以做到这一点，我会使用开箱即用的东西而不是自己编写，因为有几个主要挑战需要解决:区域识别、两种技术集成、工作流程。几年前，当当前的工具不可用时，我们已经进行了此类集成。

关于ocr - 用于机器打印文本的 ICR？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16078393/

ocr - 用于机器打印文本的 ICR？

上一篇：java - Eclipse 生成的哈希码

下一篇：memory - GCC 中的后链接器汇编代码