solr - 使用 Solr 索引 PDF

标签 solr full-text-search solrj apache-tika solr-cell

任何人都可以指向我的教程。

我使用 Solr 的主要经验是索引 CSV 文件。但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么。

我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler

但这对我来说意义不大。我需要安装 Tika 吗?

我迷路了 - 请帮忙

最佳答案

使用 solr-4.9(截至目前的最新版本),从 pdf、电子表格(xls、xlxs 系列)、演示文稿(ppt、ppts)、文档(doc、txt 等)等丰富文档中提取数据变得相当简单。
从下载的存档中提供的示例代码示例
here包含一个基本的 solr 模板项目,可让您快速入门。

必要的配置更改如下:

  • 更改 solrConfig.xml包括以下几行:
    <lib dir="<path_to_extraction_libs>" regex=".*\.jar" /> <lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />

  • 创建一个请求处理程序,如下所示:
    <requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" > <lst name="defaults" /> </requestHandler>
    2. 将 solrExample 中必要的 jars 添加到您的项目中。

    3.根据您的需要定义架构并触发如下查询:
    curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "myfile=@testDocToExtractFrom.txt"
    转到 GUI 门户并查询以查看索引内容。

    如果您遇到任何问题,请告诉我。

    关于solr - 使用 Solr 索引 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6694327/

    相关文章:

    cocoa - Parse.com - 标记化数组字段中的子字符串搜索

    elasticsearch - 使用 Elasticsearch 的关键字搜索

    java - AppEngine 全文文档索引使用词干运算符进行搜索

    java - Apache Solr 中是否有 MySQL 的存储过程替代方案?

    java - Solr 搜索无法正常工作

    solr - solr查询中的子字符串匹配

    solr - 如何在solr的数据配置文件中添加小于和大于

    solr - 将 Solr 用作 DB 是一种好习惯吗

    java - java中的solrj连接

    hadoop - 使用 Apache Solr 导入或索引 Hive/HDFS 数据