pdf - Solr ExtractingRequestHandler为pdf文档提供空内容

标签 pdf solr apache-tika solr-cell

我在Solr中使用ExtractingRequestHandler来获取文档内容并将其编入索引。它适用于所有Microsoft文档,但对于PDF,要提取的内容为空。我还尝试了curl的extractOnly = true,它也只返回空的主体。

我在相同的文档上独立使用了TIKA,并且提取内容就很好了。区别在于,当我独立进行操作时,我使用的是Tika随附的BodyContentHander,而不是Solr使用的SolrContentHandler。有人看过吗?

我真的希望让Solr处理它,而不是使用Tika在Solr之外提取内容。

最佳答案

在解决这个问题之前,我只处理了好几个小时,即以非二进制模式打开我的PDF,然后只将其馈给文件中的第一个EOF字符。 Solr仍将从文件中提取元数据(如它出现在PDF的标题中一样),但是将在其响应中返回一个空的body标签。

这可能不适用于原始海报,但确实可以帮助其他人避免浪费生命。

关于pdf - Solr ExtractingRequestHandler为pdf文档提供空内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1982895/

相关文章:

node.js - 如何在node/express应用程序中使用prawn pdf

asp.net - 使 PDF 内联显示而不是单独的 Acrobat Reader 窗口

solr - 从 Solr 检索不同的文档

solr filter 或 tokenizer 来组合单词

java - Apache TIKA - 添加新的元数据值

java - 从pdf文件中提取文本和包含文本的图像

pdf - 将禁用智能收缩与 wkhtmltopdf 一起使用不会影响标题字体大小

java - 构建具有搜索功能的文档存储

java - Apache Tika 将 AC3 文件解析为 application/octet-stream 而不是 audio/ac3