drupal - 让 ExtractingRequestHandler 在 Solr 中工作

标签 drupal solr apache-tika solr-cell

我正在尝试让 Solr 与 Tika 一起工作,以便我可以在我的 Drupal 网站中索引 Word 和 PDF 文档。

我看过 Wiki page而这个 page它们表示在 solrconfig.xml 中添加一个 requestHandler。

我这样做了,现在 Solr 抛出了一个异常:

org.apache.solr.common.SolrException: Error loading class 'org.apache.solr.handler.extraction.ExtractingRequestHandler'



我做了一些搜索,发现其他人也有这个问题,但没有简单的解决办法。我正在使用 Solr 3.4.0 Windows Server 2003 .关于如何解决这个问题的任何想法?

作为旁注,我有 Drupal 使用 Solr 进行搜索,并且正在运行。但是我无法工作的是让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求,但我已经花了数天时间,我无法相信它的文档记录很差而且很难弄清楚。

最佳答案

如果您从带有 jetty 设置的示例目录运行 Solr,它应该按原样运行,没有任何更改。

然而,for multicore setup you would need to copy the jars into the lib directory .

如果您检查示例文件夹中的 solrconfig,它将包含 solr 单元和提取库的 jar。

solrconfig.xml -

取消注释此行以包含所有 lib jar -

<lib dir="./lib" />

将这些文件夹中的 jar 文件复制到您的多核 lib 文件夹中。
这些 jar 用于提取。 (Apache pdfbox、poi、fontbox 等)
<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />

当您启动 Solr 时,您应该会看到所有的 jars 已加载。
应该让你工作。

关于drupal - 让 ExtractingRequestHandler 在 Solr 中工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7918754/

相关文章:

solr - 使用curl和SOLR索引文件

full-text-search - 使用 Lucene 通过 Symfony 为 PDF 文件建立索引

java - jnius.JavaException : JVM exception occurred: . ..(系统找不到指定的文件)

java - 如何使用 Apache Tika 编写自定义 ContentHandler?

linux - Drupal7 中的干净 URL 不起作用

drupal - 在 Drupal 6 中包含特定节点的 CSS 或 Javascript 文件

search - ManifoldCF 作业调度的行为如何?

Solr 4 空间类未找到 com/vividsolutions/jts/geom/Geometry

php - Drupal - 在模板中呈现 subview /部分

Drupal 自定义菜单定位