<分区>
我正在尝试以编程方式将 PDF 转换为 HTML。到目前为止,我一直在使用 pdftohtml但我们的用户对结果并不满意。
这是我需要的:
我使用的是 Ruby on Rails,但任何适用于 Unix 的工具都可以工作,因为我可以从命令行调用它。但当然,一个好的 gem 或插件将是完美的。
我希望它是开源的
它需要能够处理图像
如果需要可以选择丢弃图片就好了
需要稳定
它需要返回布局接近原始 pdf 的 html(我试过 pdftohtml,但在很多情况下结果都不是很好)
<分区>
我正在尝试以编程方式将 PDF 转换为 HTML。到目前为止,我一直在使用 pdftohtml但我们的用户对结果并不满意。
这是我需要的:
我使用的是 Ruby on Rails,但任何适用于 Unix 的工具都可以工作,因为我可以从命令行调用它。但当然,一个好的 gem 或插件将是完美的。
我希望它是开源的
它需要能够处理图像
如果需要可以选择丢弃图片就好了
需要稳定
它需要返回布局接近原始 pdf 的 html(我试过 pdftohtml,但在很多情况下结果都不是很好)
最佳答案
这里有几个 pdftohtml/xpdf 的替代品:
关于html - 什么是适用于 Ruby on Rails 的良好 PDF 到 HTML 转换器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1900423/