php - 使用php搜索pdf中的文本

标签 php mysql database pdf full-text-search

我有一个大数据库,大约有 50 万(500K)个条目,现在所有这些条目也有一些与之关联的文档(即每个 id 至少有 pdf 文件)。现在我需要一个强大的方法来搜索这些 pdf 文件中的特定文本,如果找到它,它应该返回相应的“id”

请分享一些使用 PHP 在 pdf 中搜索文本的快速且优化的方法。任何想法将不胜感激。

注意:将pdf更改为文本然后搜索显然不是我要找的,这会花费更长的时间。

In one line I need the best way to search for text in pdf using PHP

最佳答案

如果这是一项一次性任务,则可能没有“快速”解决方案。

如果这是一个重复性任务,

  1. 通过某种工具提取文本。 (抱歉,我不知道有什么工具。)
  2. 将该文本存储在数据库表中。
  3. FULLTEXT 索引应用到该表。

现在搜索速度会很快。

关于php - 使用php搜索pdf中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69951537/

相关文章:

PHP:通过现有的 SSH 连接进行 SSH

mysql - 比较和更新百万行的最快方法

php - 在格式为 "Firstname Lastname"的列中搜索名字或姓氏

mysql - 如何聚合多对多查询的结果

database - 数据库和存储引擎之间的区别

database - 基于服务器的数据库与 Onsen/Monaca

php - 如何将 Paypal SDK 加载到 Silex 中?

php - 使用 NSData 将日期从 xCode 传递到 PHP

php - 在 Codeigniter 中对 WHERE 子句进行分组

mysql - Ruby on Rails ActiveRecord::ConnectionNotEstablished