linux - pdf 到文本的转换不准确

标签 linux ocr aspell pdftotext

我几乎尝试了 Linux 上可用的所有 pdf 到文本转换器,但文本的某些部分已损坏/不准确。就像一些字符被其他字符替换一样,pdf 中的文本中缺少一些单词。对于某些单词,转换后的文本包含分号等。

我也尝试了 aspell 以便我可以更正单词,但 aspell 对某些单词保持沉默。

注意:pdf 包含瑞典语文本。

那么,有什么解决方案可以解决 pdf 到文本转换中的这种不准确问题吗?

最佳答案

没有。我认为没有适用于所有 pdf 文件的解决方案,因为显示的可视文本下的实际文本可以以各种形式存储。

例如,当 pdf 由 LaTeX 生成时,它取决于几个配置选项,以及如何嵌入一些非 ascii 字符。有时我得到的是 :o 而不是 ö,有时是 o:,有时字符是直接嵌入的。不过,这些变体中的每一个都显示ö

如果您使用自己喜欢的 pdf 查看器复制并粘贴文本或尝试搜索损坏的词,您可能会看到相同的效果。

要解决这些问题,可以使用 ocr 软件——但在识别这些工具时存在所有缺点。

关于linux - pdf 到文本的转换不准确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17786192/

相关文章:

linux - 移动已编译的 Haskell 程序

linux - 运行脚本(如果尚未运行)- 获取 [0 : not found

ocr - 我可以使用 OCR 检测字体样式(粗体、斜体)吗?

c# - 如何以编程方式读取扫描的文档或图像

linux - 对汇编中ADD指令或程序导出值的误解

linux - 从 Linux/Delphi 10.2 控制台应用程序执行外部程序

c# - 认识一个简单的字母

perl - 如何使用 Perl 的 Text::Aspell 对文本进行拼写检查?

aspell - Hunspell/Aspell 数据转换为人类可读的屈折列表

R Aspell Homebrew 软件