我正在使用 python2.7 和 PDFminer 从 pdf 中提取文本。我注意到有时 PDFminer 会给我带有奇怪字母的单词,但 pdf 查看器不会。另外,对于某些 pdf 文档,PDFminer 和其他 pdf 查看器返回的结果是相同的(奇怪),但有些文档 pdf 查看器可以识别文本(复制粘贴)。以下是返回值的示例:
来自 pdf 查看器:
来自 PDFMiner:óªéªdG êÉ````LódGh ¢†``«ÑdG OGô``«à°SG ÜÉ
H í``àa
所以我的问题是我能否得到与 pdf 查看器相同的结果,以及 PDFminer 有什么问题。我不知道它是否缺少编码。
最佳答案
是的。
当使用自定义字体编码时,例如,会发生这种情况。身份-H,身份-V等,但字体尚未正确嵌入。
在这种情况下,pdfminer 会给出垃圾输出,因为需要编码来解释文本
关于python - PDFminer 给出奇怪的字母,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12675471/