我有一个包含文本 和图像 内容的pdf 文件。我需要解析它。有什么ruby gem可以用吗?我试过pdf-reader ruby gem 但没有解析图像 :(
另一种解决方案是将 pdf 提取为 html,然后解析 html 内容。是否有任何开源 pdf2html 转换器可以处理文本和图像?
最佳答案
pdf-reader 可以提取图像,但是没有像 PDF::Reader::Page#text() 这样的好 helper ,所以它非常手动。
检查 extract_images.rd 示例@ [1]。
[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb
关于Ruby 解析包含文本和图像的 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10164991/