solr - 文件系统数据源的 DataImportHandler DIH

标签 solr datasource dataimporthandler dih lucidworks

我有一个文件系统数据源,并且我已经为其创建了一个数据配置来运行 DIH 数据配置是

<?xml version="1.0" encoding="UTF-8"?>
<dataConfig>
    <dataSource type="FileDataSource" />
    <document>
        <entity name="pdf" processor="FileListEntityProcessor" baseDir="/path/to/my/pdf" fileName=".*pdf" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false" dataSource="pdf">
        </entity>
    </document>
</dataConfig>

当我运行 DIH 时,它给出
索引已完成。添加/更新:0 个文档。已删除 0 个文档。
请求:0,已获取:35924,已跳过:0,已处理:0

知道为什么它不处理任何文档吗?

最佳答案

您的配置中没有根实体;您只有一个实体,并且它的 rootEntity="false",因此不会从中创建任何文档。

您还需要定义一些 实体内的“field”行,用于将文件信息映射到架构中的字段;这个问题indexing all documents in doc folder in to solr FileListEntityProcessor做一些与您需要的类似的事情。

关于solr - 文件系统数据源的 DataImportHandler DIH,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28180271/

相关文章:

tomcat - 找不到 Solr DataImportHandler

solr - 导入操作完成后获取添加文档的ID

search - Lucene中同一存储位置上的多个索引器

tomcat - 当 Webapp 在不同的服务器上运行时,Solr 结果会有所不同。编码问题?

java - 在 Wildfly 中使用多个数据源

java - Spring事务管理器和DataSource Java配置方式传递相同的bean id而不创建新实例

solr - 使用 DataImportHandler 的单个实体中有多个转换器

php - 将 MySQL 数据库完全导入到 Solr 4 会出现 404 错误

java - Solr 4.0 和资源加载器 : getLines undefined

grails - 如何在 Bootstrap 中获取 grails 数据源 createdb 属性