pdf - 从 PDF 中提取所有内容

标签 pdf text image extract

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

6年前关闭。




Improve this question




寻找从 PDF 文件中提取内容的解决方案(使用控制台工具或库)。

它将在服务器上用于从上传的 PDF 文件生成在线电子书。

需要提取以下内容:

  • 带有字体和样式的文本;
  • 图片;
  • 音频和视频;
  • 链接和热点。
  • 页面快照和缩略图;
  • 一般 PDF 信息,例如书籍布局、页数等

  • 看看 Adob​​e PDF Library(虽然 5000 美元)、BCL SDK(?)、PDFLib(795 欧元)、QuickPDF(250 美元)

    现在我们使用开源 pdf2xml(提取文本、图像和链接)和 GhostScript(快照和缩略图)。剩下的其他事情是:
  • 字体;
  • 多媒体;
  • 热点;
  • 页面信息。

  • 我们在支付大量资金(并且可能会错误地选择错误的解决方案)或使用免费/开源解决方案之间犹豫不决。

    您会推荐哪种从 PDF 中提取几乎所有内容的最佳解决方案?

    任何意见将不胜感激。

    最佳答案

    听起来只需几天或几周的努力,您就可以根据自己的需要调整开源工具。字体和所有东西当然可以被提取出来,这是每个 PDF 阅读器必须做的事情才能显示它们。

    您可能应该估算程序员成本($/hr)并将其乘以添加所需的开源功能所需的估计时间(60-80 小时?)。如果这高于或接近 5000 美元,您可能会考虑只购买商业软件。

    否则,借助(相当不错)PDF reference ,你应该一切顺利。

    还有一件事,你可能会发现 Poppler有所帮助。它用于渲染 PDF,但这与您尝试执行的操作非常相关。

    关于pdf - 从 PDF 中提取所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1721557/

    相关文章:

    php - 搜索 LONGTEXT 字段并显示结果

    javascript - jQuery 更新图像 srcs 不工作

    php - 使用php如何检查pdf文件内容是有效还是无效

    c# - 如何知道浏览器是否有 PDF 查看器?

    MySQL,文本索引不起作用

    linux - 检查平衡字符不起作用

    image - Crystal Reports是否支持安全(HTTPS)图像

    c++ - 谁能提供 "Skeleton Pruning by Contour Partitioning with Discrete Curve Evolution"算法的简单步骤

    html - pdf 中的 CSS 网格/flex

    java - 使用 Java 和 Apache Batik 从 SVG 生成多页 PDF