mysql - 使用 Node.js 搜索 PDF 文本

标签 mysql node.js google-app-engine pdf pdftextstream

我有数千个可搜索的 PDF,其中一些高达 1GB,超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。

目前,文件存储在 Google Cloud Storage 存储桶中。

执行此操作的最佳方法是什么?

一些选项:

  • 使用 NPM 之类的工具将 PDF 文件中的文本读入 MySQL 包 pdf-text-extract。然后使用MySQL查询来搜索文本 字符串。
  • 使用一些 NPM 包直接搜索 PDF 文件。

我完全离开了吗?有没有更好的办法?

最佳答案

有专门的文本搜索库,比如 this one , 或 this .您很可能需要从每个 pdf 中提取纯文本,保存并索引它们。然后您就可以运行搜索查询。为此特定任务设置数据库可能有点矫枉过正。

关于mysql - 使用 Node.js 搜索 PDF 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51848164/

相关文章:

python - Google App Engine 转换 API 因 BackendError 而失败

mysql - 序列化分组最大值

javascript - 全局安装后找不到模块 'socket.io'

http - Nodejs 服务器主机名

python - dev_appserver.py 无法识别我的文件

python - 在 Flask + Google App Engine 上启用 SSL

php - 如何使用 PHP 和 MYSQL 在 UWP 中进行登录

java - 尝试使用 Java 连接到 mySQL 服务器(工作台)时出错

php - MySQL 查询用数字排序

javascript - 使用 Node.js MySQL 库的正确方法是什么?