html - 什么是适用于 Ruby on Rails 的良好 PDF 到 HTML 转换器?

标签 html ruby-on-rails ruby pdf pdf-to-html

<分区>

我正在尝试以编程方式将 PDF 转换为 HTML。到目前为止,我一直在使用 pdftohtml但我们的用户对结果并不满意。

这是我需要的:

  • 我使用的是 Ruby on Rails,但任何适用于 Unix 的工具都可以工作,因为我可以从命令行调用它。但当然,一个好的 gem 或插件将是完美的。

  • 我希望它是开源的

  • 它需要能够处理图像

  • 如果需要可以选择丢弃图片就好了

  • 需要稳定

  • 它需要返回布局接近原始 pdf 的 html(我试过 pdftohtml,但在很多情况下结果都不是很好)

最佳答案

这里有几个 pdftohtml/xpdf 的替代品:

  • Adobe 有一个免费的在线 PDF 到 HTML 或文本 conversion service .取回文档可能需要一两分钟,但我怀疑此选项会给您带来最佳结果。
  • 有一个pdf-reader ruby gem 可以让你访问 PDF 文件的内部结构。这将涉及您的一些开发/扩展,但您可以使用它来解析 PDF 文件并生成漂亮的 HTML。如果您提前知道您的用户正在转换什么类型的文件(例如,如果他们使用标准化表格),这可能比听起来容易。
  • 如果您使用ghostscript,您可能会有更多选择(gem 在此处找到)首先将 PDF 转换为另一种格式。 gem 可以从 PDF 文件生成图像(png、jpg 等),但您可能最幸运地将其转换为 PostScript 文件,因为似乎有无数的“PostScript-to-[在此处插入格式]”转换器。

关于html - 什么是适用于 Ruby on Rails 的良好 PDF 到 HTML 转换器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1900423/

相关文章:

ruby-on-rails - 使用 rspec 测试设计 View

ruby-on-rails - 为什么没有 :readonly => true work on a belongs_to association?

ruby-on-rails - Rails - 参数数量错误(2 个代表 0..1)错误

html - href 链接的 XPath

php - 如何在mysql语句中使用 '='符号的通配符

javascript - 如果我有多个打开相同模式弹出窗口的链接,则 Foundation Reveal 会出现问题

ruby-on-rails - Rails x FastCGI

javascript - 单击输入类型=图像

ruby-on-rails - 使用 Rails 自动加载时名称与顶级常量发生冲突

ruby-on-rails - 全局常量未更新为正确的值