任何人都可以指向我的教程。
我使用 Solr 的主要经验是索引 CSV 文件。但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么。
我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler
但这对我来说意义不大。我需要安装 Tika 吗?
我迷路了 - 请帮忙
最佳答案
使用 solr-4.9(截至目前的最新版本),从 pdf、电子表格(xls、xlxs 系列)、演示文稿(ppt、ppts)、文档(doc、txt 等)等丰富文档中提取数据变得相当简单。
从下载的存档中提供的示例代码示例
here包含一个基本的 solr 模板项目,可让您快速入门。
必要的配置更改如下:
solrConfig.xml
包括以下几行:<lib dir="<path_to_extraction_libs>" regex=".*\.jar" />
<lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />
创建一个请求处理程序,如下所示:
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults" />
</requestHandler>
2. 将 solrExample 中必要的 jars 添加到您的项目中。
3.根据您的需要定义架构并触发如下查询:
curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "myfile=@testDocToExtractFrom.txt"
转到 GUI 门户并查询以查看索引内容。
如果您遇到任何问题,请告诉我。
关于solr - 使用 Solr 索引 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6694327/