pdf - 在solr中获取pdf搜索结果的页码

标签 pdf solr full-text-search apache-tika solr-cell

我正在构建一个网络应用程序,用户可以在其中搜索 pdf 文档并使用 pdf.js 查看它们。我想显示搜索结果,其中包含找到搜索词的段落的一小段以及在右侧页面打开文档的链接。

所以我需要的是每个搜索结果的页码和简短的文本片段。

我正在使用 SOLR 4.1 来索引 pdf 文档。索引本身工作正常,但我不知道如何获取搜索结果的页码和段落。

我在这里找到了这个“Indexing PDF with page numbers with Solr”,但它并不是很有用。

最佳答案

我现在拆分 PDF 并将每一页分别发送到 SOLR。 所以每一页都是一个自己的文档,ID 为 <id_of_document>_<page_number>和一个仅包含 <id_of_document> 的附加字段 doc_id用于对结果进行分组。

关于pdf - 在solr中获取pdf搜索结果的页码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15116160/

相关文章:

powershell word 转 pdf

java - 如何将 Apache Solr 搜索与我的 Java webapp 集成?

django - 在 Django/PostgreSQL 搜索结果页面上突出显示搜索词

solr - 主从solr 3.6服务器的备份策略

search - 为没有 MySQL 数据库的简单网站添加搜索功能

postgresql - Multi-Tenancy PostgreSQL 数据库中全文搜索的索引策略

java - 通过 PDFBox 访问图像的 "alternate text"

macos - 如何以编程方式在 macOS 上加密 PDF 文件

java - 从 PDF 中提取 TIFF 图像而不解码

Solr函数查询: How to use "score" field for creating custom scoring