c# - 如何 : Improve the PDF- quality before OCR using C#

标签 c# pdf ocr readable

我正在创建一项服务,用于监控文件夹中的扫描文件。一旦文件在那里,该服务就会将其拾取,并将其转换为可读的 PDF。在此过程中,该服务还会搜索条形码。在此之后,提取文本并将文件及其文本存储到我们软件的数据库中。该位置基于条形码。

现在,对于 OCR,我们使用 Atalasoft 的 SDK (http://www.atalasoft.com/)。 此 SDK 中还包含条码识别器。

但是转换后的文字还是有一些错误。 (我用其他 OCR 程序进行了一些测试,但 Atalasoft 表现不错。) 我正在寻找一些软件(SDK 套件),它可以让我为 OCR 目的提高 PDF 的质量。

我测试了 Kofax VRS Elite ( http://www.kofax.com/vrs-virtualrescan/ )。我正在寻找类似的东西,但可以使用某种 SDK 套件在服务中实现。

有谁以前做过这个,或者遇到过类似的问题吗? 提前谢谢!

最佳答案

您可以尝试完全不同的路径:
查看您是否可以将扫描仪配置为直接扫描为 PDF 并即时执行 OCR。 Lexmark 扫描仪可以做到这一点。这将创建带有可选和可搜索文本的 PDF。这又可以用 PDF 阅读库提取。

或者您可能想看看 http://www.abbyy.com/看看你是否能得到更好的结果。

如果这些都不是好的选择,您可能希望以系统的方式分解您的问题:
1.扫描图像的图像质量有问题吗?如果是这样,那么必须先解决这个问题。您的 OCR 解决方案可能会受到分辨率、对比度和颜色的影响。
2.是OCR软件吗?拿一份清晰度很高的文档,看看 OCR 软件是否出错。如果是这样,那么您就知道您必须找到更好的 OCR 软件。
3. 如果您的文档质量不错,并且您的 OCR 软件在破译清晰文档方面的成功率很高,那么您可能需要查看不起作用的异常(exception)情况,并根据具体情况逐一解决这些问题。

如果文档上的污迹和背景图像是问题的原因,您可能需要研究避免这种情况的方法,或者使用公开 API 的图像处理软件清除这种情况。

关于c# - 如何 : Improve the PDF- quality before OCR using C#,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6593310/

相关文章:

C# 到 C 代码 P/INvoke 多个标准 :string declarations lead to stack corruption

pdf - FOP 不显示西里尔字符

java - 替换图像中的嘈杂颜色以从验证码中获取带有 OCR 的文本

java - 使用 Tess4J 生成训练数据

c# - 在方法返回的 If-Else 语句中,如果可以隐式遵循 Else,是否应该显式声明 Else?

c# - 如何处理 FormattedText/让 WPF 放弃 .TTF 文件?

c# - DriveInfo.TotalSize 未指示正确的值

android - 以编程方式打开 pdf 文件是否进入菜单页面?

ios - 如何在ios中正确读取pdf中的中文

opencv - tesseract 在同一图像上的不同结果