mysql - 使用 Node.js 搜索 PDF 文本

标签 mysql node.js google-app-engine pdf pdftextstream

我有数千个可搜索的 PDF，其中一些高达 1GB，超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。

目前，文件存储在 Google Cloud Storage 存储桶中。

执行此操作的最佳方法是什么？

一些选项:

使用 NPM 之类的工具将 PDF 文件中的文本读入 MySQL 包 pdf-text-extract。然后使用MySQL查询来搜索文本字符串。
使用一些 NPM 包直接搜索 PDF 文件。

我完全离开了吗？有没有更好的办法？

最佳答案

有专门的文本搜索库，比如 this one , 或 this .您很可能需要从每个 pdf 中提取纯文本，保存并索引它们。然后您就可以运行搜索查询。为此特定任务设置数据库可能有点矫枉过正。

关于mysql - 使用 Node.js 搜索 PDF 文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51848164/

上一篇：mysql - 如何将 mysql 查询转换为事务 SQL 查询

下一篇：Mysql 不能在 wamp 上运行，图标仍然是橙色

相关文章：

python - Google App Engine 转换 API 因 BackendError 而失败

mysql - 序列化分组最大值

javascript - 全局安装后找不到模块 'socket.io'

http - Nodejs 服务器主机名

python - dev_appserver.py 无法识别我的文件

python - 在 Flask + Google App Engine 上启用 SSL

php - 如何使用 PHP 和 MYSQL 在 UWP 中进行登录

java - 尝试使用 Java 连接到 mySQL 服务器(工作台)时出错

php - MySQL 查询用数字排序

javascript - 使用 Node.js MySQL 库的正确方法是什么？

©2024 IT工具网联系我们