solr - 使用 Solr 索引 PDF

任何人都可以指向我的教程。

我使用 Solr 的主要经验是索引 CSV 文件。但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么。

我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler

但这对我来说意义不大。我需要安装 Tika 吗？

我迷路了 - 请帮忙

最佳答案

使用 solr-4.9(截至目前的最新版本)，从 pdf、电子表格(xls、xlxs 系列)、演示文稿(ppt、ppts)、文档(doc、txt 等)等丰富文档中提取数据变得相当简单。
从下载的存档中提供的示例代码示例
here包含一个基本的 solr 模板项目，可让您快速入门。

必要的配置更改如下:

更改 solrConfig.xml包括以下几行:

<lib dir="<path_to_extraction_libs>" regex=".*\.jar" />
<lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />

创建一个请求处理程序，如下所示:

<requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults" />
 </requestHandler>

2. 将 solrExample 中必要的 jars 添加到您的项目中。

3.根据您的需要定义架构并触发如下查询:

curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "myfile=@testDocToExtractFrom.txt"

转到 GUI 门户并查询以查看索引内容。

如果您遇到任何问题，请告诉我。

关于solr - 使用 Solr 索引 PDF，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6694327/

solr - 使用 Solr 索引 PDF

上一篇：webview - Cocoa App Webview未加载请求

下一篇：hibernate - hibernate 中托管和非托管环境是什么意思？