PDF:如何覆盖/修复扫描图像 + OCR 文件中的可搜索文本?

标签 pdf adobe edit acrobat

我正在尝试在 PDF 文件上创建索引,我从旧的原始手稿中将其扫描为图像,然后在 Adob​​e Acrobat Pro 中进行字符识别。问题是一些单词的间距很有趣,所以 OCR 最终出现了缺陷。我用了 查找并修复可疑工具 但仍然存在问题。

举个例子...

文本“ FOR Example ”在原始文档(当然还有它的图像)中的间距很有趣,因此 Adob​​e 将其读为三个单词“ FOR EX AMPLE ”,然后产生一个如果我不知道更好的话,“充足”这个词的索引条目看起来完全有效。这是迄今为止我发现的文档的几个类似问题之一(还有更多的页面需要校对)。

如何修复底层 OCR 文本,使其在创建的索引和搜索文档时都包含正确的信息。

PS:我不能只切换到文档的纯 OCR 文本版本,因为手稿是技术性的,并且有很多与文本相关的图纸。我需要保留图像并更改下面的“隐藏”可搜索文本。

最佳答案

我找到了 this answer建议 ABBYY FineReader 14 (商业;我没有附属)。看起来它将处理编辑,之后我认为您现有的工作流程会处理索引。 Here是另一个提供更多工作流程细节的答案(尽管是三年前)。

另外,this question有建议 Perl 的答案 CAM::PDFpdftk .

关于PDF:如何覆盖/修复扫描图像 + OCR 文件中的可搜索文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49328429/

相关文章:

flash - 无法解析<local :chatters> to a component implementation

c# - 寻找一个简单的C#数字编辑控件

c# - 禁止编辑 DataGridView 记录

特定列上的 C# ListView LabelEdit

python - 在 Windows 上获取 PDF 的预览 JPEG?

ios - Type0 CMap 解析问题

ios - 如何从 iOS SpringBoard(主屏幕)打开 PDF

javascript - XMP 对象需要 setProperty 语法

java - 使用 Java 将 PDF 转换为 XML

python-3.x - 如何从 PDF 嵌入 HTML 的 URL 下载 PDF 文件?