ruby - Apache Tika 服务器请求获取 'main content' 而不是 'plain text'

标签 ruby http put apache-tika

我正在试验 Apache Tika:应用程序和服务器、GUI 和命令行。

使用 Tika 应用程序,我可以做类似的事情

    java -jar tika-app-1.7.jar --gui

然后选择“查看”->“主要内容”,或者

    java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html

我需要主要内容,但似乎在服务器模式下我只能获取纯文本。我正在检查this guide .

    curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta
    curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika

也许,http://:9998/之后的内容可以解决问题? 有什么办法可以在服务器模式下获取主要内容吗?

最后,必须使用 Ruby tika-server-1.3.jar 发出请求。到目前为止看起来像这样:

    require "net/http"

    tika_prefix = URI('http://<server_ip>:9998/tika')
    url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html'
    request = Net::HTTP::Put.new(tika_prefix.to_s)
    request.body = url
    request.content_type = 'text/html'
    http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port)
    http.request(request).body

最佳答案

从今天开始这是可能的。 Tika 1.15 现在实现 TIKA-2343功能请求,在服务器模式下添加等效的 --text-main

vaites/php-apache-tika 是我使用的 Tika 的 PHP 绑定(bind),我已经打开 an issue关于这一点,所以我们应该很快就能看到它的实现。

编辑:PHP 绑定(bind)库现在支持此功能。

关于ruby - Apache Tika 服务器请求获取 'main content' 而不是 'plain text',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31347208/

相关文章:

ruby-on-rails - Rails 中的多线程 : Circular dependency detected while autoloading constant

ruby 。打乱数组,使相邻的元素不具有相同的值

javascript - text/plain 和 string 之间有区别吗?

javascript - jQuery AJAX PUT 具有空的 QUERY_STRING 和 REQUEST PHP 变量

ios - 如何在 NSURLSession 中发起 PUT 请求?

ruby - 查找两个数组之间的共同值

Ruby 数组减法,无需多次删除项目

security - 浏览器API为什么要限制跨域请求?

c# - 恢复下载

c++ - 如何 https `GET` 来自 azure 存储 CDN 的文件的新拷贝?