pdf - PDF 文件的结构?

标签 pdf

对于一个小项目,我必须解析 pdf 文件并获取其中的特定部分(简单的字符链)。我想使用 python 来做到这一点,并且我找到了几个能够以某些方式完成我想要的事情的库。

但是现在经过一些研究,我想知道 pdf 文件的真正结构是什么,有谁知道网上是否有规范或一些解释?我在 adobe 上找到了一个链接,但它似乎是一个死链接:(

最佳答案

这是 Adob​​e 引用资料的链接

http://www.adobe.com/devnet/pdf/pdf_reference.html

您应该知道,PDF 仅涉及演示,而不涉及结构。解析并不容易。

关于pdf - PDF 文件的结构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/88582/

相关文章:

java - PDFBox 是否支持专色和分色?

php - tcpdf - 从现有的 PDF 文档开始

java - 用于注释的pdfbox嵌入子集字体

c# - 如何以编程方式打印各种文件类型

python - 如何在 Django 中使用 Hardcopy 在选定的目录中创建 pdf 输出文件?

javascript - 如何延迟pdf扫描直到页面完全加载php中的pdfcrowd api?

pdf - DocuSign 和 EchoSign 使用的允许在线编辑、填写和签署 PDF 的 UI 技术是什么?

c# - 当从 HTML 或 URL 生成大型 pdf 时,Websupergoo abcpdf 非常慢

c#-4.0 - 使用 iTextSharp 从 PDF 中读取复选框、单选按钮名称和值

Python Camelot - 如何从表中删除换行符/n