javascript - 使用 Google 应用程序脚本将文本从 PDF 转换为文本

标签 javascript pdf google-apps-script ocr google-drive-api

我有一个脚本可以从某些 Gmail 邮件中获取(可搜索的)PDF 附件。

现在我需要从这些 pdf 中提取一些字符串数据。

有没有什么方法可以将它添加到启用了 OCR 转换的 Google Drive 并从该文件中提取文本?还是有更好的方法来解决我的问题?

最佳答案

你说你从“可搜索的”pdf 附件开始,我假设你的意思是它们实际上没有文本类型的内容,而是在 pdf 图像上带有文本的扫描文档。如果您将它们存储在云端硬盘中,Google 将自动对它们执行 OCR,但是 OCR 不会作为文件内容的一部分存储,它仅用于索引文档,以便以后可以使用驱动器搜索找到它(即其内部用于驱动器使用, 未暴露)。

但是,您可能想试试这个 DocsList api https://developers.google.com/apps-script/reference/docs-list/file#getContentAsString() 如果它们上确实有文本(而不是图像上的文本),这可能适用于您的 pdf。

关于javascript - 使用 Google 应用程序脚本将文本从 PDF 转换为文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20269355/

相关文章:

javascript - 添加轮播时如何修复 Bootstrap 下拉列表失败?

c# - 在云环境中使用 C# 将 Word (DOCX) 文件转换为 PDF

django - 渲染从 SimpleDocTemplate 构建的 ReportLab pdf

javascript - App 脚本中的 var "header_row || 1"是什么意思?

google-apps-script - Google 表单对下拉选项数量的限制

javascript - "make this a quiz"并在 Google 电子表格脚本中使用 FormApp 创建答案键

javascript - 如何构建 JavaScript 广告旋转器?

javascript - 我想使用 javascript 将不同的 url 链接分配给激活单选按钮时生成的按钮

html - 链接/嵌入到 pdf 文档的特定页面/部分?

google-apps-script - 使用 google apps 脚本计算 gmail 中的电子邮件 - for 循环限制为 500 次迭代