我正在寻找将丰富类型文档(Pdf、Doc、rtf、txt)索引到 Solr 中。我找到了 Tika 作为解决方案。我在网上咆哮,但没有找到任何文档/链接来使其与 ExtractingRequestHandler 一起使用。
任何人都可以提供使用 ExtractingRequestHandler 配置 Tika 的分步方法。
提前致谢:)
最佳答案
检查ExtractingRequestHandler用于 Solr 与 Tika 的集成。
Solr 内置了 tika.config,除非覆盖配置,否则不需要定义它。
您可以使用 solrconfig.xml 中定义的默认配置
<!-- Solr Cell Update Request Handler
http://wiki.apache.org/solr/ExtractingRequestHandler
-->
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>
您可以使用命令将文件与附加元数据索引到 solr。
curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="0964706f60656c34493827796d6f" rel="noreferrer noopener nofollow">[email protected]</a>"
默认情况下,文件内容会复制到内容字段并复制到文本,您可以覆盖设置。
关于solr - 使用 Solr 配置 Tika,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17622544/