solr - 使用 Solr 配置 Tika

我正在寻找将丰富类型文档(Pdf、Doc、rtf、txt)索引到 Solr 中。我找到了 Tika 作为解决方案。我在网上咆哮，但没有找到任何文档/链接来使其与 ExtractingRequestHandler 一起使用。

任何人都可以提供使用 ExtractingRequestHandler 配置 Tika 的分步方法。

提前致谢:)

最佳答案

检查ExtractingRequestHandler用于 Solr 与 Tika 的集成。
Solr 内置了 tika.config，除非覆盖配置，否则不需要定义它。
您可以使用 solrconfig.xml 中定义的默认配置

<!-- Solr Cell Update Request Handler

   http://wiki.apache.org/solr/ExtractingRequestHandler 

-->
<requestHandler name="/update/extract" 
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
  <str name="lowernames">true</str>
  <str name="uprefix">ignored_</str>

  <!-- capture link hrefs but ignore div attributes -->
  <str name="captureAttr">true</str>
  <str name="fmap.a">links</str>
  <str name="fmap.div">ignored_</str>
</lst>
</requestHandler>

您可以使用命令将文件与附加元数据索引到 solr。

curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="0964706f60656c34493827796d6f" rel="noreferrer noopener nofollow">[email protected]</a>"

默认情况下，文件内容会复制到内容字段并复制到文本，您可以覆盖设置。

关于solr - 使用 Solr 配置 Tika，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17622544/

solr - 使用 Solr 配置 Tika

上一篇：Lua 从表中删除项目 (CoronaSDK)

下一篇：if-statement - BATCH - RPS - 石头、剪刀、布 - 几轮后继续失败