search - 以编程方式在多个 PDF 文件中搜索关键字和注释页码

标签 search pdf

我在一家博物馆工作,目录中有数百份科学论文 pdf。我对所有这些都进行了 OCR,以便可以在 Adob​​e Reader 等程序中搜索关键字。我需要编写一个程序,让我可以在此目录中搜索特定物种名称,并生成与关键字匹配的文档列表以及相应的页码。

我正在寻找一个 pdf 库,我可以用它来完成这个任务(希望)是免费的。我用PDFOne Library写了一个小程序但是在整个目录中搜索一个术语需要大约 10 分钟的时间。我想大大缩短时间,因为 Adob​​e Reader 和 PDF-XchangeViewer 可以在一分钟内执行相同的搜索。我对使用的语言没有偏好。

任何人都可以指导我使用正确的资源,以便我可以完成这项任务吗?谢谢。

最佳答案

我建议您评估使用 Apache Solr - 它可以非常有效地索引 PDF 文件。

http://lucene.apache.org/solr/

关于search - 以编程方式在多个 PDF 文件中搜索关键字和注释页码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18738448/

相关文章:

mysql - 通配符输入导致其他搜索输入检索多输入搜索表单中的所有数据

c# - 使用c#提取pdf中的条形码

c# - iTextSharp,提交所有字段的代码

Java 将 XML 文档呈现为 PDF

c - 在 C 中将整数分类/映射到各种类别的优雅方法是什么?

algorithm - 不知情搜索 : run breadth-first search followed by iterative deepening search on each node in the frontier

c - 搜索字符串 C

javascript - Backbone 搜索多模型

Node.js:提供动态 pdf,结果为空

java - 扫描 PDF 并转换为缓冲图像以解码 QR 时出现 Zxing 格式异常