pdf - 从 PDF 中提取所有内容

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。

想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。

6年前关闭。

Improve this question

寻找从 PDF 文件中提取内容的解决方案(使用控制台工具或库)。

它将在服务器上用于从上传的 PDF 文件生成在线电子书。

需要提取以下内容:

带有字体和样式的文本；

图片;

音频和视频；

链接和热点。

页面快照和缩略图；

一般 PDF 信息，例如书籍布局、页数等

看看 Adobe PDF Library(虽然 5000 美元)、BCL SDK(？)、PDFLib(795 欧元)、QuickPDF(250 美元)

现在我们使用开源 pdf2xml(提取文本、图像和链接)和 GhostScript(快照和缩略图)。剩下的其他事情是:

字体；

多媒体;

热点；

页面信息。

我们在支付大量资金(并且可能会错误地选择错误的解决方案)或使用免费/开源解决方案之间犹豫不决。

您会推荐哪种从 PDF 中提取几乎所有内容的最佳解决方案？

任何意见将不胜感激。

最佳答案

听起来只需几天或几周的努力，您就可以根据自己的需要调整开源工具。字体和所有东西当然可以被提取出来，这是每个 PDF 阅读器必须做的事情才能显示它们。

您可能应该估算程序员成本($/hr)并将其乘以添加所需的开源功能所需的估计时间(60-80 小时？)。如果这高于或接近 5000 美元，您可能会考虑只购买商业软件。

否则，借助(相当不错)PDF reference ，你应该一切顺利。

还有一件事，你可能会发现 Poppler有所帮助。它用于渲染 PDF，但这与您尝试执行的操作非常相关。

关于pdf - 从 PDF 中提取所有内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1721557/

pdf - 从 PDF 中提取所有内容

上一篇：amazon-web-services - RDS generate_presigned_url 不支持 DestinationRegion 参数

下一篇：amazon-web-services - terraform 将列表变量获取到资源