python - PDFminer 给出奇怪的字母

标签 python pdf encoding pdfminer

我正在使用 python2.7 和 PDFminer 从 pdf 中提取文本。我注意到有时 PDFminer 会给我带有奇怪字母的单词,但 pdf 查看器不会。另外,对于某些 pdf 文档,PDFminer 和其他 pdf 查看器返回的结果是相同的(奇怪),但有些文档 pdf 查看器可以识别文本(复制粘贴)。以下是返回值的示例:

来自 pdf 查看器: 来自 PDFMiner:óªéªdG êÉ````LódGh ¢†``«ÑdG OGô``«à°SG ÜÉH í``àa

所以我的问题是我能否得到与 pdf 查看器相同的结果,以及 PDFminer 有什么问题。我不知道它是否缺少编码。

最佳答案

是的。

当使用自定义字体编码时,例如,会发生这种情况。身份-H,身份-V等,但字体尚未正确嵌入。

在这种情况下,pdfminer 会给出垃圾输出,因为需要编码来解释文本

关于python - PDFminer 给出奇怪的字母,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12675471/

相关文章:

java - iText PDF 文档无法打开 : java. io.IOException : No message found for the. document.has.no.pages

angularjs - 如何在 AngularJS 应用程序中显示 blob (.pdf)

javascript - 有没有办法将网页的特定 div 打印为 pdf?

java - HttpServletRequest UTF-8 编码

python - 尝试在Python中删除相同数字的倍数

python - 为什么我不能使用 "from sys import stdout"重定向 STDOUT?

python - 将 'object' 添加到带有到期计时器的堆栈中,并在到期时收到通知

python - Dragonfly IntegerRef 出现 TypeError : 'NoneType' object is not callable error

java - 低于 19 的较低 API 上的 StandardCharsets.UTF_8

delphi - 在 Delphi XE5 中使用 Socket Recv 方法