我在一家博物馆工作,目录中有数百份科学论文 pdf。我对所有这些都进行了 OCR,以便可以在 Adobe Reader 等程序中搜索关键字。我需要编写一个程序,让我可以在此目录中搜索特定物种名称,并生成与关键字匹配的文档列表以及相应的页码。
我正在寻找一个 pdf 库,我可以用它来完成这个任务(希望)是免费的。我用PDFOne Library写了一个小程序但是在整个目录中搜索一个术语需要大约 10 分钟的时间。我想大大缩短时间,因为 Adobe Reader 和 PDF-XchangeViewer 可以在一分钟内执行相同的搜索。我对使用的语言没有偏好。
任何人都可以指导我使用正确的资源,以便我可以完成这项任务吗?谢谢。
最佳答案
我建议您评估使用 Apache Solr - 它可以非常有效地索引 PDF 文件。
http://lucene.apache.org/solr/
关于search - 以编程方式在多个 PDF 文件中搜索关键字和注释页码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18738448/