我正在尝试使用以下教程在 solr 中索引 PDF 文件 http://wiki.apache.org/solr/ExtractingRequestHandler 但是每次我发出命令时
java -jar post.jar *.pdf
它说一些 org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error 请帮助我将 PDF 索引到 solr 服务器。除了 tika 之外还有其他集成可以帮助我吗?
最佳答案
Post.jar 只是一个将文件上传到 Solr 的实用程序。
Solr 使用 Extract 处理程序,因此您需要提供作为 url。例如
java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf
关于java - 使用 Apache Tika 在 solr 中提取 PDF 文件的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18767945/