pdf - 如何将交互式 "table of contents"添加到扫描的 pdf 中?

标签 pdf

我正在尝试从纸质文档转换为带有目录的可搜索 pdf。

有时您会下载 pdf 书籍或文档(例如下面可以看到的英特尔手册)该文档是可搜索的,它还有一个目录。现在,当您将同一份文档放在 Google Drive 上,然后在 iPad 上使用 PDF Expert 打开它时,它仍然可以通过目录进行搜索。这就是我想对所有扫描的 pdf 执行的操作。 enter image description here enter image description here

现在是一个更具体的例子。下面显示的是我用 Fujitsu ScanSnap 扫描的文档。由于 ScanSnap 附带的一些软件,它也可以搜索。所以现在我有一个可搜索的 pdf,可以在本地或在我的 ipad 上打开,但它没有目录。所以我的主要问题是:如何将目录(如英特尔手册中的目录)添加到扫描的 pdf 中 enter image description here enter image description here

似乎有很多人在使用“目录”做不同的事情。就像设计文档的人使用 InDesign 一样。我认为我正在尝试做的事情一定比这更简单。我在想必须有一种简单的方法可以使用 Adob​​e Acrobat Pro 来做到这一点吗?关于向现有目录添加“书签”或“链接”或“标签”的内容。您是否知道使用 Acrobat 或其他一些软件进行此操作的简洁明了的方法?

感谢帮助

最佳答案

Jpdfbookmark可以用于扫描的书籍

Watch tutorial video ≫

第 1 步:准备目录

以这种格式将 TOC 保存在 .txt 文件中:

Chapter 1. The Beginning/23
    Para 1.1 Child of The Beginning/25,FitWidth,96
        Para 1.1.1 Child of Child of The Beginning/26,FitHeight,43
Chapter 2. The Continue/30,TopLeft,120,42
    Para 2.1 Child of The Beginning/32,FitPage

您可以 ORC the TOC并使用正则表达式修复它。

第 2 步:加载目录

第 3 步:为第 4 步做准备

这听起来很蠢,但如果你错过了,你会很沮丧,不得不重做。展开所有书签 (Ctrl + E),选择所有书签,然后转到工具 → 应用页面偏移

第 4 步:应用页面偏移

这一步应该是不言自明的。不要忘记保存。


就是这样。你完成了。有关更多信息,您可以阅读其 manual .该程序具有命令行模式,可以在Linux、Mac上运行。

如果有非罗马字符,转储和应用书签时一定要使用相同的编码。

我还有一个处理扫描书籍的完整指南,你可能想看看:The ultimate guide to process scanned books .


仅供引用:
How to OCR tables of contents to proper outputs?
How can I split in half a double-page scanned PDF in a single pass?

关于pdf - 如何将交互式 "table of contents"添加到扫描的 pdf 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22518248/

相关文章:

javascript - 在浏览器中以半页增量垂直放置嵌入的 PDF

linux - 如何从 Linux 服务器的 .docx 生成 PDF 文件?

python - 任意(在合理范围内)宽度的 PDF 表格

ios - 从 UIWebView 创建 PDF 文件

html - Wkhtmltopdf 输出不一致

PHP,从 HTML 生成 PDF 文件

html - 如何在新窗口中打开 pdf 文件中的链接?

R markdown 函数分页符

java - 有没有一种方法可以在不先创建 PDF 文件的情况下以 PDF 形式查看 rptdesign?

java - 使用 iText 从 PCKS7 签名的 PDF 文件中获取哈希/摘要