我正在尝试在 PDF 文件上创建索引,我从旧的原始手稿中将其扫描为图像,然后在 Adobe Acrobat Pro 中进行字符识别。问题是一些单词的间距很有趣,所以 OCR 最终出现了缺陷。我用了 查找并修复可疑工具 但仍然存在问题。
举个例子...
文本“ FOR Example ”在原始文档(当然还有它的图像)中的间距很有趣,因此 Adobe 将其读为三个单词“ FOR EX AMPLE ”,然后产生一个如果我不知道更好的话,“充足”这个词的索引条目看起来完全有效。这是迄今为止我发现的文档的几个类似问题之一(还有更多的页面需要校对)。
如何修复底层 OCR 文本,使其在创建的索引和搜索文档时都包含正确的信息。
PS:我不能只切换到文档的纯 OCR 文本版本,因为手稿是技术性的,并且有很多与文本相关的图纸。我需要保留图像并更改下面的“隐藏”可搜索文本。
最佳答案
我找到了 this answer建议 ABBYY FineReader 14 (商业;我没有附属)。看起来它将处理编辑,之后我认为您现有的工作流程会处理索引。 Here是另一个提供更多工作流程细节的答案(尽管是三年前)。
另外,this question有建议 Perl 的答案 CAM::PDF和 pdftk .
关于PDF:如何覆盖/修复扫描图像 + OCR 文件中的可搜索文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49328429/