我有数千个可搜索的 PDF,其中一些高达 1GB,超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。
目前,文件存储在 Google Cloud Storage 存储桶中。
执行此操作的最佳方法是什么?
一些选项:
- 使用 NPM 之类的工具将 PDF 文件中的文本读入 MySQL
包
pdf-text-extract
。然后使用MySQL查询来搜索文本 字符串。 - 使用一些 NPM 包直接搜索 PDF 文件。
我完全离开了吗?有没有更好的办法?
最佳答案
关于mysql - 使用 Node.js 搜索 PDF 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51848164/