pdf - 使用 Solr 用页码索引 PDF

标签 pdf solr full-text-search apache-tika solr-cell

我正在使用 ExtractingRequestHandler 使用 Solr 索引 PDF。我想显示页码以及文档中的点击次数，例如“术语 foo 出现在 bar.pdf 第 2、3 和 5 页上。”

是否可以像这样在查询结果中包含页码？

最佳答案

这需要一些开发工作，但您可以通过将每个文档的每一页作为单独的 Solr 文档编制索引来实现这一点，然后使用 field collapsing对每个文档的不同页面点击进行分组。

请注意，您需要每晚为此，在任何当前发布的 Solr 版本中都没有实现字段折叠。

另请注意:字段折叠在版本 中实现Solr 3.3 .预计下一个大版本会有更多更新( Solr 4.0 )

关于pdf - 使用 Solr 用页码索引 PDF，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4094269/

上一篇：regex - 如何在 F# 中创建从 A 到 Z 的列表

下一篇：amazon-web-services - 单个 Docker 镜像从 VSTS 构建/发布定义推送到 AWS 弹性容器注册表 (ECR)

相关文章：

c++ - C++/Qt (Windows) 报告生成器

solr - 托管架构和其他花哨的东西。它是什么？

c# - 我如何实现类似 "phonetical"的搜索

ruby-on-rails - 在 Ruby On Rails 中搜索

php - dompdf制作页眉和页脚 "solid"

javascript - 我成功编译了我的程序。现在我该如何运行它？

javascript - 批量编辑 PDF 以进行分发

mysql - 将 Solr 结果与 MySQL 数据相结合的最有效方式

search - Solr:长度标准化/omitNorms = false有什么好处？

caching - 按 Redis 缓存中的值搜索 - 二级索引