linux - 自动连接 PDF 中的文本框

标签 linux pdf textbox ocr tesseract

我在Fraktur font中有一个文档并使用 tesseract 执行 OCR (语言为deu-frak)。我花了大约 10 天(每天 24 小时)来转换这 23 期(每期约 400 页)。

结果是一个可搜索的 PDF，其中嵌入了原始图像，顶部不可见文本: Compressed PDF from tesseract

现在，我已经用 Master PDF Editor 删除了图像并将文本类型从“不可见”更改为“全文”。现在事实证明，有些单词无法被 tesseract 识别，因此每个字母都单独定位: Text-only PDF from Master PDF Editor 请注意，“kommen”被识别为单词，但“fruchtbaren”仅被识别为字符序列。这使得无法通过文本搜索找到“fruchtbaren”，并且在更改字体大小时，字母会重叠或产生难看的间隙。

我正在使用 Linux，并正在寻找一个可以为所有 23 个 PDF 文档编写脚本的命令行工具。

是否可以以最小距离连接文本框，甚至连接一行就可以了？

谢谢。

最佳答案

可能不是您想听到的，但我会回去在一个小的代表性样本上尝试预处理、Tesseract 参数等，直到您获得尽可能好的初始 OCR(包括分词)，然后使用新设置重新运行 OCR。如果您仍然发现需要某种类型的后处理，我会再次在小样本上构建和完善整个管道，然后再运行完整数据集。

从表面上看，如果您提供具有足够扫描分辨率的干净图像，Tesseract 似乎可以做得更好。

关于linux - 自动连接 PDF 中的文本框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28926144/

上一篇：linux - Perl - 伪哈希已被弃用

下一篇：c++ - Unix 域套接字 : sending file descriptor and select()

相关文章：

Linux，搜索图像文件

linux - 除了 rm -rf 之外，还有更安全的命令来删除文件和目录吗？

html - QT html和CSS转pdf文件

java - 从 PDf 到字符串

javascript - 数据表导出 pdf HTML 消息

javascript - 复选框更改时添加/删除文本框值

c# - 如何禁用文本框控件中的文本换行？

WPF TextBox 滚动条实际上是否可见？

linux - CentOS yum 失败，出现 libcurl.so.4 错误，说 'undefined symbol: libssh2_agent_disconnect'

linux - 设置环境变量并使其在所有打开的终端中生效

©2024 IT工具网联系我们