我正在试验 Apache Tika:应用程序和服务器、GUI 和命令行。
使用 Tika 应用程序,我可以做类似的事情
java -jar tika-app-1.7.jar --gui
然后选择“查看”->“主要内容”,或者
java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html
我需要主要内容,但似乎在服务器模式下我只能获取纯文本。我正在检查this guide .
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika
也许,http://:9998/之后的内容可以解决问题? 有什么办法可以在服务器模式下获取主要内容吗?
最后,必须使用 Ruby tika-server-1.3.jar 发出请求。到目前为止看起来像这样:
require "net/http"
tika_prefix = URI('http://<server_ip>:9998/tika')
url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html'
request = Net::HTTP::Put.new(tika_prefix.to_s)
request.body = url
request.content_type = 'text/html'
http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port)
http.request(request).body
最佳答案
从今天开始这是可能的。 Tika 1.15 现在实现 TIKA-2343功能请求,在服务器模式下添加等效的 --text-main
。
vaites/php-apache-tika
是我使用的 Tika 的 PHP 绑定(bind),我已经打开 an issue关于这一点,所以我们应该很快就能看到它的实现。
编辑:PHP 绑定(bind)库现在支持此功能。
关于ruby - Apache Tika 服务器请求获取 'main content' 而不是 'plain text',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31347208/