apache-tika - 使用 Tika Server 打开语言检测?

标签 apache-tika

我正在尝试使用 Tika Server 进行语言检测。有没有办法请求这个?

最佳答案

没有围绕这个主题进行太多挖掘,但我需要在 Docker 设置中使用此功能。 official documentation并不是很有帮助,但似乎现在可以通过 /meta 端点使用 - 至少在 1.14 中是这样。用法示例:

curl -T file.txt http://127.0.0.1:9998/meta --header“接受:application/json”

响应将类似于:

{"language":"en", "Content-Encoding":"ISO-8859-1","Content-Type":"text/plain; charset\u003dISO-8859-1","X-Parsed-By":["org.apache.tika.parser.DefaultParser","org.apache.tika.parser.txt.TXTParser"]}

为了满足我的特殊需要,我使用了 this Docker 镜像。

希望有帮助!

关于apache-tika - 使用 Tika Server 打开语言检测?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20268648/

相关文章:

pdf - Solr ExtractingRequestHandler为pdf文档提供空内容

java - Playframework 2.x Apache Tika 问题

jakarta-ee - Wildfly 上的 Tika-Parsers 部署问题

java - pdfbox 类转换异常

python - 如何使用 OCR 有效地从 PDF 文件目录中提取文本?

java - jnius.JavaException : JVM exception occurred: . ..(系统找不到指定的文件)

apache-tika - tika为包含大量表格的pdf返回错误的文本行

solr - Solr 是否可以索引纯文本文件,而无需通过 Tika 运行它们?

python - 将 tika 与 python 一起使用,runtimeerror : unable to start tika server

java - Apache 提卡 : Parsing a text file omits last part?