PDF:如何覆盖/修复扫描图像 + OCR 文件中的可搜索文本？

标签 pdf adobe edit acrobat

我正在尝试在 PDF 文件上创建索引，我从旧的原始手稿中将其扫描为图像，然后在 Adobe Acrobat Pro 中进行字符识别。问题是一些单词的间距很有趣，所以 OCR 最终出现了缺陷。我用了 查找并修复可疑工具 但仍然存在问题。

举个例子...

文本“ FOR Example ”在原始文档(当然还有它的图像)中的间距很有趣，因此 Adobe 将其读为三个单词“ FOR EX AMPLE ”，然后产生一个如果我不知道更好的话，“充足”这个词的索引条目看起来完全有效。这是迄今为止我发现的文档的几个类似问题之一(还有更多的页面需要校对)。

如何修复底层 OCR 文本，使其在创建的索引和搜索文档时都包含正确的信息。

PS:我不能只切换到文档的纯 OCR 文本版本，因为手稿是技术性的，并且有很多与文本相关的图纸。我需要保留图像并更改下面的“隐藏”可搜索文本。

最佳答案

我找到了 this answer建议 ABBYY FineReader 14 (商业；我没有附属)。看起来它将处理编辑，之后我认为您现有的工作流程会处理索引。 Here是另一个提供更多工作流程细节的答案(尽管是三年前)。

另外，this question有建议 Perl 的答案 CAM::PDF和 pdftk .

关于PDF:如何覆盖/修复扫描图像 + OCR 文件中的可搜索文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49328429/

上一篇：带有 angular 5 和 .net Core 2 的报告工具

下一篇：oauth-2.0 - 实现对 api 的 oAuth2 身份验证调用的指南

c# - 寻找一个简单的C#数字编辑控件

c# - 禁止编辑 DataGridView 记录

特定列上的 C# ListView LabelEdit

python - 在 Windows 上获取 PDF 的预览 JPEG？

ios - Type0 CMap 解析问题

ios - 如何从 iOS SpringBoard(主屏幕)打开 PDF

javascript - XMP 对象需要 setProperty 语法

java - 使用 Java 将 PDF 转换为 XML

python-3.x - 如何从 PDF 嵌入 HTML 的 URL 下载 PDF 文件？