Ruby 解析包含文本和图像的 PDF 文件

标签 ruby pdf

我有一个包含文本图像 内容的pdf 文件。我需要解析它。有什么ruby gem可以用吗?我试过pdf-reader ruby gem 但没有解析图像 :(

另一种解决方案是将 pdf 提取为 html,然后解析 html 内容。是否有任何开源 pdf2html 转换器可以处理文本和图像?

最佳答案

pdf-reader 可以提取图像,但是没有像 PDF::Reader::Page#text() 这样的好 helper ,所以它非常手动。

检查 extract_images.rd 示例@ [1]。

[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb

关于Ruby 解析包含文本和图像的 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10164991/

相关文章:

javascript - Android WebView iframe - 替换 src

ruby-on-rails - 如何从多个地方重定向到上一页?

ruby - 在 Ruby 中,如何将 sleep 与 gets 结合起来?我想等待用户响应 1 分钟,否则继续

ruby - 具有 `while` 或 `until` 循环的数组算法

ruby - 如何从 Sinatra 进行 Github 风格的 Markdown 渲染?

c# - 如何使用相对文件路径和 PDFsharp 创建 PDF 文件链接?

ruby - 提取域名中的个别现有词

php - 如何在 MYSQL 中存储 PDF 文件的文件引用以在 php 中检索

html - 在 IE6 和 IE7 的 IFrame 中加载 PDF

ruby-on-rails - 使用 Prawn 和 Rails 处理签名字段