solr - 如何在 SOLR 中索引文档?

标签 solr full-text-search apache-tika solr-cell

我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常。不过,我很难找到有关如何索引文档的任何连贯信息。我是 SOLR 的新手,所以请耐心等待!
我有一个文件夹(/mnt/folder),它是一个挂载的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么?

SOLR 的文档非常糟糕,不可能找到任何有关完成工作的体面教程,因此非常感谢任何帮助!

最佳答案

看看Solr wiki ,这是一个非常详尽的文档。

特别看ExtractingRequestHandler ,它允许您为 Word 和 PDF 文档等二进制文件编制索引。 Here's an introduction到主题。

如果维基对你来说还不够,还有一个 great book about Solr .

关于solr - 如何在 SOLR 中索引文档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2802000/

相关文章:

mysql - 具有逗号分隔值的 Solr Facet 多个单词

solr 建议者不返回任何结果

java - 使用 Solr 和 Mahout 的推荐系统

Mysql全文搜索查询执行

Java 将作为 Rest API 响应返回的 pdf 转换为文本

mysql - 在 Solr 中创建两个使用相同模式的实例的最佳方法是什么?

MYSQL 全文搜索无法正常工作

MySQL 全文(非)搜索

Python-Tika 返回 PDF 的 "None"内容,但适用于 TIFF

java - Apache 提卡 : Parsing a text file omits last part?