python - pdfminer pdf2text 输出 'FF'

标签 python pdf pdfminer pdf-parsing

enter image description here

我有一个pdf文件。在我的win 10、python 3.6环境中安装pdfminer.6后,我运行:

$ pdf2txt.py -o test1 download.pdf

给我屏幕截图输出。当我运行时:

$ dumppdf.py -o test2 download.pdf

我得到:

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="47" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string>
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string>
</list></value>
<key>Root</key>
<value><ref id="46" /></value>
<key>Size</key>
<value><number>48</number></value>
</dict>
</trailer>

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="47" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string>
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string>
</list></value>
<key>Root</key>
<value><ref id="46" /></value>
<key>Size</key>
<value><number>48</number></value>
</dict>
</trailer>

接下来我该做什么?我怎样才能让它工作?

最佳答案

pdfminer 无法从相关文档中提取任何可用文本的原因是该文档不包含文本!

更准确地说,该工作表 PDF 不包含文本绘制指令,仅包含图形绘制指令(其结果看起来像文本)。另一方面,PDF 文本提取器(如 pdfminer)仅检查文本绘制指令,因此它们不会返回任何内容。

因此,要从此类文档中挖掘数据,最好采用 OCR 而不是文本提取。

<小时/>

在您提出的评论中

how do you know that only graphic instructions are contained? What tools do you use?

您需要一个 PDF 浏览器应用程序和一些 PDF 内部知识。

作为PDF浏览器我通常使用iText RUPSPDFBox PDF Debugger 。但还有其他好的浏览器,例如Adobe Preflight 中包含一个。

使用此类 PDF 浏览器,您可以检查 PDF 的内容流,其中包含绘制页面的说明。在您的情况下,这些内容流不包含任何文本绘制指令,仅包含图形绘制指令。

通过研究 PDF 规范 ISO 32000-2(如果手头没有新规范,旧的前身规范 ISO 32000-1 也是一个很好的起点)并分析许多真实的内容,可以获得 PDF 内部知识。 -word PDF。

关于python - pdfminer pdf2text 输出 'FF',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47492363/

相关文章:

java - PDF Signing,生成的PDF文档认证无效? (使用外部签名、web-eid、HSM)

python - 将二进制字符串的文本转储转换为真实字符串

python - PDF Miner PDF加密错误

python - Dask 计算使用预期内存的两倍

python - Twitter 使用 Selenium Python 向下滚动所有帖子

python - cv2.floodfill 如何工作?

pdf - 来自 PDFS 的高分辨率图像

加载 dll : OSError 0x7e 时 Python CFFI 模块失败

python - PyPDF2,如何修复其示例代码以符合 Python 3

python - 尝试使用 pdfminer.6 提取文本时如何修复 'UnicodeDecodeError'?