ruby-on-rails - 用于解析 .doc 文件的 Ruby 库?

标签 ruby-on-rails ruby pdf parsing ms-word

我只是想知道是否有人知道有什么好的库可以解析 .doc 文件(和类似格式,如 .odt)以提取文本,同时尽可能保留格式信息以便在网站上显示。

对 PDF 执行类似操作的能力将是一种奖励,但我并没有那么看重它。

这是针对 Rails 项目的,如果有帮助的话。

提前致谢!

最佳答案

Apache 的 POI是访问 Word 和 Excel 文档的一种非常流行的方式。有一个 Ruby POI binding这可能值得调查,但看起来你必须自己构建它。而且 API 看起来不太像 Ruby,因为它实际上是 Java 代码的直接端口。而且它似乎只针对 Ruby 1.8.2 进行了测试。

关于ruby-on-rails - 用于解析 .doc 文件的 Ruby 库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2868782/

相关文章:

ruby-on-rails - redis-rb multi 仅在键集时递增

捕获到 ruby​​rep 异常:PG::ConnectionBad:连接已关闭:显示搜索路径

ruby-on-rails - 如何隐藏json文件的分页

ios - 如何从 CGPDFDocumentRef 获取预告片字典?

javascript - Rails 3 - 在 JavaScript 响应中转义部分生成的 html

ruby-on-rails - 清除 Rspec 匹配器以进行更改(模型,:count). by(1)

ruby-on-rails - 如何验证关联模型?

ruby-on-rails - Ruby:如何迭代散列并根据项目数量做一些不同的事情?

java - 从受密码保护的网页下载 pdf

javascript - 获取当前页面的 pdf MVC 5