java - 使用 Apache Tika 在 solr 中提取 PDF 文件的内容

标签 java search pdf solr apache-tika

我正在尝试使用以下教程在 solr 中索引 PDF 文件 http://wiki.apache.org/solr/ExtractingRequestHandler 但是每次我发出命令时

java -jar post.jar *.pdf

它说一些 org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 Error 请帮助我将 PDF 索引到 solr 服务器。除了 tika 之外还有其他集成可以帮助我吗?

最佳答案

Post.jar 只是一个将文件上传到 Solr 的实用程序。
Solr 使用 Extract 处理程序,因此您需要提供作为 url。例如

java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf

对于加密文件检查 link
对于受密码保护的文件,请检查 link

关于java - 使用 Apache Tika 在 solr 中提取 PDF 文件的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18767945/

相关文章:

java - 为什么我不能在 Spring 中使用 JavaConfig 创建我的数据源?

java - Ehcache作为Spring中配置的JCache实现

c++ - 排序然后搜索( vector C++)

linux - itextpdf 字体未嵌入 Linux

javascript - 使用 PDFObject 嵌入 Blob

java - Quartz 作业已存在,名称/组带有 spring mvc 和 Camel

java - ImageButton 出来很小。 Java-Android开发

C# 数据库搜索(如何创建查询字符串)

android - 过滤自定义ArrayAdapter或在 Activity 中实现搜索

java - Apache PDFBox : Get alignment and font from a PDAnnotationWidget or PDTextField