java - 使用 Apache Tika 在 solr 中提取 PDF 文件的内容

我正在尝试使用以下教程在 solr 中索引 PDF 文件 http://wiki.apache.org/solr/ExtractingRequestHandler 但是每次我发出命令时

java -jar post.jar *.pdf

它说一些 org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error 请帮助我将 PDF 索引到 solr 服务器。除了 tika 之外还有其他集成可以帮助我吗？

最佳答案

Post.jar 只是一个将文件上传到 Solr 的实用程序。
Solr 使用 Extract 处理程序，因此您需要提供作为 url。例如

java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf

对于加密文件检查 link
对于受密码保护的文件，请检查 link

关于java - 使用 Apache Tika 在 solr 中提取 PDF 文件的内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18767945/