python - PDFminer 给出奇怪的字母

标签 python pdf encoding pdfminer

我正在使用 python2.7 和 PDFminer 从 pdf 中提取文本。我注意到有时 PDFminer 会给我带有奇怪字母的单词，但 pdf 查看器不会。另外，对于某些 pdf 文档，PDFminer 和其他 pdf 查看器返回的结果是相同的(奇怪)，但有些文档 pdf 查看器可以识别文本(复制粘贴)。以下是返回值的示例:

来自 pdf 查看器: 来自 PDFMiner:óªéªdG êÉ````LódGh ¢†``«ÑdG OGô``«à°SG ÜÉH í``àa

所以我的问题是我能否得到与 pdf 查看器相同的结果，以及 PDFminer 有什么问题。我不知道它是否缺少编码。

最佳答案

是的。

当使用自定义字体编码时，例如，会发生这种情况。身份-H，身份-V等，但字体尚未正确嵌入。

在这种情况下，pdfminer 会给出垃圾输出，因为需要编码来解释文本

关于python - PDFminer 给出奇怪的字母，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12675471/

上一篇：python - 如何更改特定地址上的字节

下一篇：python - 将 upload_to 函数与模型类关联的首选 pythonic 方式？

angularjs - 如何在 AngularJS 应用程序中显示 blob (.pdf)

javascript - 有没有办法将网页的特定 div 打印为 pdf？

java - HttpServletRequest UTF-8 编码

python - 尝试在Python中删除相同数字的倍数

python - 为什么我不能使用 "from sys import stdout"重定向 STDOUT？

python - 将 'object' 添加到带有到期计时器的堆栈中，并在到期时收到通知

python - Dragonfly IntegerRef 出现 TypeError : 'NoneType' object is not callable error

java - 低于 19 的较低 API 上的 StandardCharsets.UTF_8

delphi - 在 Delphi XE5 中使用 Socket Recv 方法