pdf - 使用 Solr 用页码索引 PDF

标签 pdf solr full-text-search apache-tika solr-cell

我正在使用 ExtractingRequestHandler 使用 Solr 索引 PDF。我想显示页码以及文档中的点击次数,例如“术语 foo 出现在 bar.pdf 第 2、3 和 5 页上。”

是否可以像这样在查询结果中包含页码?

最佳答案

这需要一些开发工作,但您可以通过将每个文档的每一页作为单独的 Solr 文档编制索引来实现这一点,然后使用 field collapsing对每个文档的不同页面点击进行分组。

请注意,您需要每晚为此,在任何当前发布的 Solr 版本中都没有实现字段折叠。

另请注意:字段折叠在版本 中实现Solr 3.3 .预计下一个大版本会有更多更新( Solr 4.0 )

关于pdf - 使用 Solr 用页码索引 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4094269/

相关文章:

python - 使用 PDFminer 解析 pdf(梵文脚本)会给出错误的输出

pdf - 通过 Web 应用程序自动化 PDF 签名

java - 无法更新 Solr 搜索结果 - 错误 #500 无法创建主管

search - 使用 dismax 处理程序进行通配符搜索?

c# - Entity Framework 无法导入执行FTS的存储过程

django - Django项目中全文搜索的搜索引擎

javascript - 如何将内置 PDF 查看器的 Chrome 集成到 Web 应用程序中

solr - 如何通过查询更新solr索引?

ios - Swift全文搜索推荐解决方案

javascript - 如何在 iOS 上将 iOS Chrome 的 "Open in"功能与 protected 网站后面的 PDF 或大数据 URL 一起使用?