我只是想知道是否有人知道有什么好的库可以解析 .doc 文件(和类似格式,如 .odt)以提取文本,同时尽可能保留格式信息以便在网站上显示。
对 PDF 执行类似操作的能力将是一种奖励,但我并没有那么看重它。
这是针对 Rails 项目的,如果有帮助的话。
提前致谢!
最佳答案
Apache 的 POI是访问 Word 和 Excel 文档的一种非常流行的方式。有一个 Ruby POI binding这可能值得调查,但看起来你必须自己构建它。而且 API 看起来不太像 Ruby,因为它实际上是 Java 代码的直接端口。而且它似乎只针对 Ruby 1.8.2 进行了测试。
关于ruby-on-rails - 用于解析 .doc 文件的 Ruby 库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2868782/