对于一个小项目,我必须解析 pdf 文件并获取其中的特定部分(简单的字符链)。我想使用 python 来做到这一点,并且我找到了几个能够以某些方式完成我想要的事情的库。
但是现在经过一些研究,我想知道 pdf 文件的真正结构是什么,有谁知道网上是否有规范或一些解释?我在 adobe 上找到了一个链接,但它似乎是一个死链接:(
最佳答案
这是 Adobe 引用资料的链接
http://www.adobe.com/devnet/pdf/pdf_reference.html
您应该知道,PDF 仅涉及演示,而不涉及结构。解析并不容易。
关于pdf - PDF 文件的结构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/88582/