solr - 使用 Solr 配置 Tika

标签 solr apache-tika

我正在寻找将丰富类型文档(Pdf、Doc、rtf、txt)索引到 Solr 中。我找到了 Tika 作为解决方案。我在网上咆哮,但没有找到任何文档/链接来使其与 ExtractingRequestHandler 一起使用。

任何人都可以提供使用 ExtractingRequestHandler 配置 Tika 的分步方法。

提前致谢:)

最佳答案

检查ExtractingRequestHandler用于 Solr 与 Tika 的集成。
Solr 内置了 tika.config,除非覆盖配置,否则不需要定义它。
您可以使用 solrconfig.xml 中定义的默认配置

<!-- Solr Cell Update Request Handler

   http://wiki.apache.org/solr/ExtractingRequestHandler 

-->
<requestHandler name="/update/extract" 
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
  <str name="lowernames">true</str>
  <str name="uprefix">ignored_</str>

  <!-- capture link hrefs but ignore div attributes -->
  <str name="captureAttr">true</str>
  <str name="fmap.a">links</str>
  <str name="fmap.div">ignored_</str>
</lst>
</requestHandler>

您可以使用命令将文件与附加元数据索引到 solr。

curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="0964706f60656c34493827796d6f" rel="noreferrer noopener nofollow">[email protected]</a>"

默认情况下,文件内容会复制到内容字段并复制到文本,您可以覆盖设置。

关于solr - 使用 Solr 配置 Tika,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17622544/

相关文章:

java - 无法在 Lucene+Tika 上返回带有重音符号的单词的结果

java - Tesseract OCR 无法在 Linux 上的 Java 中运行

solr - 如何从不同的集合中查询特定的分片

solr - 支持 Solr 3.4.0 中的 EdegeNGram 分析和短语搜索

lucene - 为什么在进行模糊搜索时绕过 Solr 过滤器禁用?

java - 在 pig 中创建 udf 以进行图像处理

java - 如何配置 Tika 的 pom.xml 以停止获取所有许可证依赖性警告?

pdf - Apache ManifoldCF TIKA

solr - 在solr中查询具有不同字段的多个集合

solr - 负载平衡器和Solrcloud