我在Fraktur font中有一个文档并使用 tesseract 执行 OCR (语言为deu-frak)。我花了大约 10 天(每天 24 小时)来转换这 23 期(每期约 400 页)。
结果是一个可搜索的 PDF,其中嵌入了原始图像,顶部不可见文本:
现在,我已经用 Master PDF Editor 删除了图像并将文本类型从“不可见”更改为“全文”。现在事实证明,有些单词无法被 tesseract 识别,因此每个字母都单独定位: 请注意,“kommen”被识别为单词,但“fruchtbaren”仅被识别为字符序列。这使得无法通过文本搜索找到“fruchtbaren”,并且在更改字体大小时,字母会重叠或产生难看的间隙。
我正在使用 Linux,并正在寻找一个可以为所有 23 个 PDF 文档编写脚本的命令行工具。
是否可以以最小距离连接文本框,甚至连接一行就可以了?
谢谢。
最佳答案
可能不是您想听到的,但我会回去在一个小的代表性样本上尝试预处理、Tesseract 参数等,直到您获得尽可能好的初始 OCR(包括分词),然后使用新设置重新运行 OCR。如果您仍然发现需要某种类型的后处理,我会再次在小样本上构建和完善整个管道,然后再运行完整数据集。
从表面上看,如果您提供具有足够扫描分辨率的干净图像,Tesseract 似乎可以做得更好。
关于linux - 自动连接 PDF 中的文本框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28926144/