pdf - 如何使用 Google 的 Vision API 将 PDF(不可搜索)转换为可搜索 PDF?

标签 pdf google-cloud-platform ocr google-vision

据我所知,Google 的 Vision API 允许您对 PDF 执行 OCR,但它仅以 JSON 格式返回检测到的文本。作为返回,我需要一个可搜索的 (OCR'd) PDF 文件。这可能吗?

最佳答案

请注意 OutputConfig type没有任何元数据字段来配置结果文件的格式。正如您所知,API 返回一个 JSON 响应。您可以先使用 API 获取 JSON 数据,然后探索以下任何一项的使用 repositories for JSON to PDF conversion或直接使用任何专用模块,例如 OCRmyPDF在您的源 PDF 上专门用于此目的,并完全避免使用 API。

关于pdf - 如何使用 Google 的 Vision API 将 PDF(不可搜索)转换为可搜索 PDF?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63105072/

相关文章:

javascript - 获取当前页面的 pdf MVC 5

reactjs - 使用react-pdf react 嵌入PDF不起作用

node.js - Nodejs PDF使下载无法打开

google-apps-script - 从云端硬盘中删除应用脚本文件或容器文件时,不会从控制台中删除 Google 应用脚本 GCP 项目

pdf - 如何在 postscript 文件上制作程序覆盖文本?

python - 带有存储触发器的谷歌云函数 python37 将不会部署并且不会提供任何日志

google-cloud-platform - ML Engine 在线预测 - 意外的张量名称 : values

c# - Azure 认知服务上的文本识别

java - 在Java for Android中比较图像

python - 如何根据图像质量确定使用哪种 OCR 方法