我已经通过 APACHE POI项目并发现它对于从 MS word 文件中提取文本内容很有用。具体来说,有一个功能叫做 Text Extraction在有效地完成工作的 POI 中。我也听说过 Apache Tika它在内部使用 Apache POI。
现在,我们的 Rails 网络应用程序需要从 word (.doc)
文件中提取文本内容。我们可以将 Apache POI/Apache Tika
集成到我的网络应用程序中以达到我的目的的可能性有多大?
如果有人对此有相关经验,我很想听听它以及代码片段。
最佳答案
您最好的选择是使用 Apache Tika JAXRS server,因为您没有在 JVM 上运行,可从 Apache Tika download page 获得.这提供了 RESTful 接口(interface),让 Tika 从您的文件中提取文本(和元数据)。
因为它是一个独立的服务器,您只需启动 JVM 一次,然后它就会在那里并可用于您发送的每个请求,从而加快处理速度。要输出纯文本,请将您的文档发送到 http://localhost:9998/tika
,并使用 Accept: text/plain
的 HTTP 请求 header ,然后您将返回纯文本。
您可以在 Tika Wiki 上找到有关服务器可用 RESTful 端点的更多信息,或者只需启动服务器 (java -jar tika-server-1.X.jar
) 并在您的网络浏览器中转到 http://localhost:9998/
关于ruby-on-rails - 使用 Apache POI 从 Ruby on Rails Web 应用程序中的 MS Word (.doc) 文件中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29676439/