关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。
想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。
6年前关闭。
Improve this question
寻找从 PDF 文件中提取内容的解决方案(使用控制台工具或库)。
它将在服务器上用于从上传的 PDF 文件生成在线电子书。
需要提取以下内容:
看看 Adobe PDF Library(虽然 5000 美元)、BCL SDK(?)、PDFLib(795 欧元)、QuickPDF(250 美元)
现在我们使用开源 pdf2xml(提取文本、图像和链接)和 GhostScript(快照和缩略图)。剩下的其他事情是:
我们在支付大量资金(并且可能会错误地选择错误的解决方案)或使用免费/开源解决方案之间犹豫不决。
您会推荐哪种从 PDF 中提取几乎所有内容的最佳解决方案?
任何意见将不胜感激。
最佳答案
听起来只需几天或几周的努力,您就可以根据自己的需要调整开源工具。字体和所有东西当然可以被提取出来,这是每个 PDF 阅读器必须做的事情才能显示它们。
您可能应该估算程序员成本($/hr)并将其乘以添加所需的开源功能所需的估计时间(60-80 小时?)。如果这高于或接近 5000 美元,您可能会考虑只购买商业软件。
否则,借助(相当不错)PDF reference ,你应该一切顺利。
还有一件事,你可能会发现 Poppler有所帮助。它用于渲染 PDF,但这与您尝试执行的操作非常相关。
关于pdf - 从 PDF 中提取所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1721557/