pdf - Solr ExtractingRequestHandler为pdf文档提供空内容

标签 pdf solr apache-tika solr-cell

我在Solr中使用ExtractingRequestHandler来获取文档内容并将其编入索引。它适用于所有Microsoft文档，但对于PDF，要提取的内容为空。我还尝试了curl的extractOnly = true，它也只返回空的主体。

我在相同的文档上独立使用了TIKA，并且提取内容就很好了。区别在于，当我独立进行操作时，我使用的是Tika随附的BodyContentHander，而不是Solr使用的SolrContentHandler。有人看过吗？

我真的希望让Solr处理它，而不是使用Tika在Solr之外提取内容。

最佳答案

在解决这个问题之前，我只处理了好几个小时，即以非二进制模式打开我的PDF，然后只将其馈给文件中的第一个EOF字符。 Solr仍将从文件中提取元数据（如它出现在PDF的标题中一样），但是将在其响应中返回一个空的body标签。

这可能不适用于原始海报，但确实可以帮助其他人避免浪费生命。

关于pdf - Solr ExtractingRequestHandler为pdf文档提供空内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1982895/

上一篇：wpf - 文本框和按钮 - 绑定(bind)和命令

下一篇：sql - 强制事务从另一个连接提交？

asp.net - 使 PDF 内联显示而不是单独的 Acrobat Reader 窗口

solr - 从 Solr 检索不同的文档

solr filter 或 tokenizer 来组合单词

java - Apache TIKA - 添加新的元数据值

java - 从pdf文件中提取文本和包含文本的图像

pdf - 将禁用智能收缩与 wkhtmltopdf 一起使用不会影响标题字体大小

java - 构建具有搜索功能的文档存储

java - Apache Tika 将 AC3 文件解析为 application/octet-stream 而不是 audio/ac3