solr - tika solr 集成

标签 solr full-text-search apache-tika solr-cell

我正在尝试使用基于 curl 的请求进行索引

请求是

curl "http://localhost:8080/solr1/update/extract?literal.id=who.pdf&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@/root/apache-solr-3.1.0/docs/who.pdf"

在提交请求时,我收到此错误,
 Error report</title><style><!--H1 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:22px;} H2 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:16px;} H3 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:14px;} BODY {font-family:Tahoma,Arial,sans-serif;color:black;background-color:white;} B {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;} P {font-family:Tahoma,Arial,sans-serif;background:white;color:black;font-size:12px;}A {color : black;}A.name {color : black;}HR {color : #525D76;}--></style> </head><body><h1>HTTP Status 400 - ERROR:unknown field 'ignored_meta'</h1><HR size="1" noshade="noshade"><p><b>type</b> Status report</p><p><b>message</b> <u>ERROR:unknown field 'ignored_meta'</u></p><p><b>description</b> <u>The request sent by the client was syntactically incorrect (ERROR:unknown field 'ignored_meta').</u></p><HR size="1" noshade="noshade"><h3>Apache Tomcat/6.0.18</h3></body></html>r

最佳答案

您的问题是由于 solrconfig.xml 中定义的 ExtractingRequestHandler 的默认处理程序将所有 Tika 未识别的提取字段放入名为“ingored_XXXXX”的字段中。

要解决这个问题,您可以简单地在 Solr 配置中添加一个字段名称“ignored_*”,如下所示:

<dynamicField name="ignored_*" type="ignored"/>

如果您从默认配置中删除它,请不要忘记添加忽略的类型:
<fieldtype name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" />

当 Solr 不知道 Tika 索引字段时,这将阻止您的 Solr 崩溃。

关于solr - tika solr 集成,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6186879/

相关文章:

php - strpos() 多针?

java - 如何查看文件内容是否真的像

database - Solr "real time"索引

apache - 将两个 solr 核心合并为一个

java - JSon 根据应用于其他节点的条件选择节点?

hadoop - MapReduceIndexerTool - 在 Solr 中索引 HDFS 文件的最佳方式?

java - 卢塞恩搜索

MySql 全文检索后查询锁

Spring和Tika集成: is my approach thread-safe?

java - 如何使用 apache Tika 将 xml 文件转换为 HashMap