dataset - 免费包含 OCR 基准测试集的资源

标签 dataset ocr tesseract

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

3年前关闭。



Improve this question




我想对扫描的文本(通常是任何扫描,即 A4)进行 OCR 基准测试。我找到了一些 NEOCR 数据集 here ,但是NEOCR并不是我真正想要的。

我很感激免费数据库来源的链接,这些数据库有适当的图像和引用的实际文本(包含在图像中)。

我希望这个线程对其他人对数据集进行 OCR 冲浪也有用,因为我没有找到对这些资源的任何好的引用。

谢谢!

最佳答案

我在许多项目中使用大学研究数据集很幸运。这些通常很有用,因为需要发布输入和预期结果以独立重现研究结果。一个例子是 Fourth Annual Test of OCR Accuracy 的 UNLV 数据集下面讨论更多。

另一种方法是从数据集开始并创建自己的训练集。与 Project Gutenberg 一起工作也可能是值得的已转录 57,136 本书。您可以获取 HTML 版本(带图像)并使用各种转换(如字体、旋转等)将其打印出来。然后您可以转换图像并扫描它们以与文本版本进行比较。请参阅下面的示例。

1) OCR 准确度 DOE 和 UNLV 年度测试

UNLV 的能源部 (DOE) 和信息科学研究所 (ISRI) 从 1992 年到 1995 年进行了 5 年的 OCR 测试。您可以在此处找到每年的研究说明:

  • 概览:http://www.expervision.com/testimonial-world-leading-and-champion-ocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe-university-of-nevada-las-vegas-unlv

  • 1.1) UNLV Tesseract OCR 测试数据发表于第四届 OCR 准确性年度测试

    第四次年度测试的数据使用 Tesseract是在网上发布的。由于这是一项 OCR 研究,因此它可能适合您的目的。

    此数据现在作为发布在 Google Code 上的 UNLV OCR 评估工具项目的 ISRI 的一部分托管:
  • 项目:https://code.google.com/archive/p/isri-ocr-evaluation-tools/

  • Images and Ground Truth text and zone files for several thousand English and some Spanish pages that were used in the UNLV/ISRI annual tests of OCR accuracy between 1992 and 1996.

    Source code of OCR evaluation tools used in the UNLV/ISRI annual tests of OCR Accuracy.

    Publications of the Information Science Research Institute of UNLV applicable to OCR and text retrieval.



    您可以在此处找到有关此数据集的信息:
  • 说明:https://github.com/tesseract-ocr/tesseract/wiki/UNLV-Testing-of-Tesseract
  • 数据集:https://code.google.com/archive/p/isri-ocr-evaluation-tools/downloads

  • 在数据集链接中,您会找到许多可以下载的 gzip 压缩包。在每个 tarball 中有许多目录和一组文件。每个文档有 3 个文件:
  • .tif二进制图像文件
  • .txt文本文件
  • .uzn用于描述扫描图像的区域文件

  • 注意:在发布时,我注意到这个数据集最初是在上面@Stef 的评论中发布的。

    2) 古腾堡计划

    Project Gutenberg以下列格式转录了 57,136 本免费电子书:
  • HTML
  • EPUB(带图片)
  • EPUB(无图像)
  • Kindle(带图片)
  • Kindle(无图片)
  • 纯文本 UTF-8

  • 这是一个例子:http://www.gutenberg.org/ebooks/766

    您可以通过执行以下操作来创建测试数据集:

    创建测试文件:
  • 从 HTML、ePub、Kindle 或纯文本版本开始
  • 使用不同的字体、旋转、背景颜色、带和不带图像等进行渲染和变换。
  • 将渲染转换为所需的格式,例如TIFF、PDF 等

  • 测试:
  • 通过 OCR 系统运行生成的图像
  • 与原纯文本版本对比
  • 关于dataset - 免费包含 OCR 基准测试集的资源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41181742/

    相关文章:

    C# - 如何使用 Tesseract 3.0 Wrapper 获取每个字符的边界框?

    OCR 使用谷歌文档 API

    c# - 比较数据集或更好的想法

    csv - 在 Weka 中导入 csv 时的值数量错误

    javascript - Tesseract.js 在控制台中挂起

    python - 我们正在使用tesseract进行平移OCR,但无法检测到名称和平移号等详细信息

    python - Tesseract 使用字母子集

    tesseract - tesseractengine3 .net 包装器的简单示例

    mysql - 我应该如何将 DataTable 转换为分配给 DataGrid.ItemsSource?

    r - 如何填充其他变量的缺失值?