linux - 自动连接 PDF 中的文本框

标签 linux pdf textbox ocr tesseract

我在Fraktur font中有一个文档并使用 tesseract 执行 OCR (语言为deu-frak)。我花了大约 10 天(每天 24 小时)来转换这 23 期(每期约 400 页)。

结果是一个可搜索的 PDF,其中嵌入了原始图像,顶部不可见文本: Compressed PDF from tesseract

现在,我已经用 Master PDF Editor 删除了图像并将文本类型从“不可见”更改为“全文”。现在事实证明,有些单词无法被 tesseract 识别,因此每个字母都单独定位: Text-only PDF from Master PDF Editor 请注意,“kommen”被识别为单词,但“fruchtbaren”仅被识别为字符序列。这使得无法通过文本搜索找到“fruchtbaren”,并且在更改字体大小时,字母会重叠或产生难看的间隙。

我正在使用 Linux,并正在寻找一个可以为所有 23 个 PDF 文档编写脚本的命令行工具。

是否可以以最小距离连接文本框,甚至连接一行就可以了?

谢谢。

最佳答案

可能不是您想听到的,但我会回去在一个小的代表性样本上尝试预处理、Tesseract 参数等,直到您获得尽可能好的初始 OCR(包括分词),然后使用新设置重新运行 OCR。如果您仍然发现需要某种类型的后处理,我会再次在小样本上构建和完善整个管道,然后再运行完整数据集。

从表面上看,如果您提供具有足够扫描分辨率的干净图像,Tesseract 似乎可以做得更好。

关于linux - 自动连接 PDF 中的文本框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28926144/

相关文章:

Linux,搜索图像文件

linux - 除了 rm -rf 之外,还有更安全的命令来删除文件和目录吗?

html - QT html和CSS转pdf文件

java - 从 PDf 到字符串

javascript - 数据表导出 pdf HTML 消息

javascript - 复选框更改时添加/删除文本框值

c# - 如何禁用文本框控件中的文本换行?

WPF TextBox 滚动条实际上​​是否可见?

linux - CentOS yum 失败,出现 libcurl.so.4 错误,说 'undefined symbol: libssh2_agent_disconnect'

linux - 设置环境变量并使其在所有打开的终端中生效