我在Solr中使用ExtractingRequestHandler来获取文档内容并将其编入索引。它适用于所有Microsoft文档,但对于PDF,要提取的内容为空。我还尝试了curl的extractOnly = true,它也只返回空的主体。
我在相同的文档上独立使用了TIKA,并且提取内容就很好了。区别在于,当我独立进行操作时,我使用的是Tika随附的BodyContentHander,而不是Solr使用的SolrContentHandler。有人看过吗?
我真的希望让Solr处理它,而不是使用Tika在Solr之外提取内容。
最佳答案
在解决这个问题之前,我只处理了好几个小时,即以非二进制模式打开我的PDF,然后只将其馈给文件中的第一个EOF字符。 Solr仍将从文件中提取元数据(如它出现在PDF的标题中一样),但是将在其响应中返回一个空的body标签。
这可能不适用于原始海报,但确实可以帮助其他人避免浪费生命。
关于pdf - Solr ExtractingRequestHandler为pdf文档提供空内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1982895/