ruby-on-rails - 使用 Apache POI 从 Ruby on Rails Web 应用程序中的 MS Word (.doc) 文件中提取文本

标签 ruby-on-rails ruby apache apache-poi doc

我已经通过 APACHE POI项目并发现它对于从 MS word 文件中提取文本内容很有用。具体来说,有一个功能叫做 Text Extraction在有效地完成工作的 POI 中。我也听说过 Apache Tika它在内部使用 Apache POI。

现在,我们的 Rails 网络应用程序需要从 word (.doc) 文件中提取文本内容。我们可以将 Apache POI/Apache Tika 集成到我的网络应用程序中以达到我的目的的可能性有多大?

如果有人对此有相关经验,我很想听听它以及代码片段。

最佳答案

您最好的选择是使用 Apache Tika JAXRS server,因为您没有在 JVM 上运行,可从 Apache Tika download page 获得.这提供了 RESTful 接口(interface),让 Tika 从您的文件中提取文本(和元数据)。

因为它是一个独立的服务器,您只需启动 JVM 一次,然后它就会在那里并可用于您发送的每个请求,从而加快处理速度。要输出纯文本,请将您的文档发送到 http://localhost:9998/tika,并使用 Accept: text/plain 的 HTTP 请求 header ,然后您将返回纯文本。

您可以在 Tika Wiki 上找到有关服务器可用 RESTful 端点的更多信息,或者只需启动服务器 (java -jar tika-server-1.X.jar) 并在您的网络浏览器中转到 http://localhost:9998/

关于ruby-on-rails - 使用 Apache POI 从 Ruby on Rails Web 应用程序中的 MS Word (.doc) 文件中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29676439/

相关文章:

ruby - 将 Ruby 数组解析为 JSON

ruby-on-rails - Ruby 跟踪 self

ruby-on-rails - Ruby on Rails : 2. 3.8,过滤器不起作用之前的自定义?

php - 如何检查显示来 self 的服务器的图像的站点的 URL

php - 使用 htaccess 获取值(value)和重定向

macos - 如何在 mac 上安装 apache 基准测试

ruby-on-rails - 上游在读取来自上游的响应 header 时使用 Nginx、Thin/Rails 超时

ruby-on-rails - 我应该使用 Chef 还是其他工具来管理服务器

ruby-on-rails - 将秒数转换为小数小时(半小时为 0.50 而不是 30)

javascript - rails : Anchor Tag to jump to location on same page without sending a new request and having to re-render the page