我正在尝试从 pdf 电子书中提取重音单词。使用 itext 库时会产生最好的结果,但我无法从单词中获得重音。 示例:
побеђивање -应该显示为- побеђи́ва̄ње(缺少重音)
这些字母是西里尔塞尔维亚语。 我尝试了很多 ocr 解决方案,但它们都给出了不好的结果。有没有办法让我使用 itext 以 pdf 中的方式提取所有 pdf 数据。我知道这与 pdf 的工作方式有很大关系,而且这是一件很难得到的事情,但我确实需要这个,替代方法是重新输入所有数据。 pdf文件pdf example file
最佳答案
示例文档实际上包含一张大图像、一张扫描页面以及扫描打印字母顶部的不可见文本信息。此文本信息很可能是某些 OCR 过程的结果。
不幸的是,此文本信息已经缺少相关的重音符号。例如。第一个条目的文本
添加为
(\340\361\362\340\353\367\355)Tj 0 Tc (\236)Tj
...
正如您所看到的,位置 1 和 4 使用了相同的字母 \340
,而根据扫描的页面,匹配的打印字母之一有重音,而另一个则没有。
整个页面都会发生这种情况。
因此,任何常规文本提取尝试都将无法返回有问题的重音符号。您唯一的机会就是使用 OCR。
你说你
tried many of the ocr solutions but they all give bad results
您可能将 OCR 应用程序应用于 PDF 或其渲染版本。我建议您提取扫描的图像;这样您就可以获得所有的质量。 iText 可以帮助您提取图像。
关于java - itext从pdf中获取特殊字母,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30704296/