python - pdfminer pdf2text 输出 'FF'

我有一个pdf文件。在我的win 10、python 3.6环境中安装pdfminer.6后，我运行:

$ pdf2txt.py -o test1 download.pdf

给我屏幕截图输出。当我运行时:

$ dumppdf.py -o test2 download.pdf

我得到:

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="47" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string>
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string>
</list></value>
<key>Root</key>
<value><ref id="46" /></value>
<key>Size</key>
<value><number>48</number></value>
</dict>
</trailer>

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="47" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string>
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string>
</list></value>
<key>Root</key>
<value><ref id="46" /></value>
<key>Size</key>
<value><number>48</number></value>
</dict>
</trailer>

接下来我该做什么？我怎样才能让它工作？

最佳答案

pdfminer 无法从相关文档中提取任何可用文本的原因是该文档不包含文本!

更准确地说，该工作表 PDF 不包含文本绘制指令，仅包含图形绘制指令(其结果看起来像文本)。另一方面，PDF 文本提取器(如 pdfminer)仅检查文本绘制指令，因此它们不会返回任何内容。

因此，要从此类文档中挖掘数据，最好采用 OCR 而不是文本提取。

<小时/>

在您提出的评论中

how do you know that only graphic instructions are contained? What tools do you use?

您需要一个 PDF 浏览器应用程序和一些 PDF 内部知识。

作为PDF浏览器我通常使用iText RUPS或PDFBox PDF Debugger 。但还有其他好的浏览器，例如Adobe Preflight 中包含一个。

使用此类 PDF 浏览器，您可以检查 PDF 的内容流，其中包含绘制页面的说明。在您的情况下，这些内容流不包含任何文本绘制指令，仅包含图形绘制指令。

通过研究 PDF 规范 ISO 32000-2(如果手头没有新规范，旧的前身规范 ISO 32000-1 也是一个很好的起点)并分析许多真实的内容，可以获得 PDF 内部知识。 -word PDF。

关于python - pdfminer pdf2text 输出 'FF'，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47492363/

python - pdfminer pdf2text 输出 'FF'

上一篇：python - 获取值错误: unknown url type: ' '

下一篇：python - 从一维列表创建列表列表，按长度对每个元素进行分组