我有一个脚本可以从某些 Gmail 邮件中获取(可搜索的)PDF 附件。
现在我需要从这些 pdf 中提取一些字符串数据。
有没有什么方法可以将它添加到启用了 OCR 转换的 Google Drive 并从该文件中提取文本?还是有更好的方法来解决我的问题?
最佳答案
你说你从“可搜索的”pdf 附件开始,我假设你的意思是它们实际上没有文本类型的内容,而是在 pdf 图像上带有文本的扫描文档。如果您将它们存储在云端硬盘中,Google 将自动对它们执行 OCR,但是 OCR 不会作为文件内容的一部分存储,它仅用于索引文档,以便以后可以使用驱动器搜索找到它(即其内部用于驱动器使用, 未暴露)。
但是,您可能想试试这个 DocsList api https://developers.google.com/apps-script/reference/docs-list/file#getContentAsString() 如果它们上确实有文本(而不是图像上的文本),这可能适用于您的 pdf。
关于javascript - 使用 Google 应用程序脚本将文本从 PDF 转换为文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20269355/