我有一个文件系统数据源,并且我已经为其创建了一个数据配置来运行 DIH 数据配置是
<?xml version="1.0" encoding="UTF-8"?> <dataConfig> <dataSource type="FileDataSource" /> <document> <entity name="pdf" processor="FileListEntityProcessor" baseDir="/path/to/my/pdf" fileName=".*pdf" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false" dataSource="pdf"> </entity> </document> </dataConfig>
当我运行 DIH 时,它给出
索引已完成。添加/更新:0 个文档。已删除 0 个文档。
请求:0,已获取:35924,已跳过:0,已处理:0
知道为什么它不处理任何文档吗?
最佳答案
您的配置中没有根实体;您只有一个实体,并且它的 rootEntity="false",因此不会从中创建任何文档。
您还需要定义一些 实体内的“field”行,用于将文件信息映射到架构中的字段;这个问题indexing all documents in doc folder in to solr FileListEntityProcessor做一些与您需要的类似的事情。
关于solr - 文件系统数据源的 DataImportHandler DIH,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28180271/