google-cloud-vision 如何阅读pdf文件

标签 google-cloud-vision

我正在使用 Google OCR API 并且我正在阅读图像和 PDF 文件，我能够阅读和处理图像文件，但是，对于 PDF 文件，根据 Google OCR API documentation ，他们提到我们需要将我们的文档存储到 Google Cloud 服务中。

话虽如此，由于数据 secret 性，我无法将我的数据存储到 Google Cloud 中，并希望从我的本地系统上传我的 PDF 以便从 PDF 文件中读取文本。我需要您的输入，是否可以从本地磁盘上传 PDF，然后进行处理而不是将文件上传到 Google Cloud？
在这方面，您的合作将不胜感激。

问候，
泽山

最佳答案

正如您所说，在本地无法做到这一点。我提交了功能请求 [1]代表您关注那里的更新。

无论如何，我有一个可能的解决方法可以满足您的数据保密意识。它包括使用 Cloud Storage 客户端库 [2]上传和删除这些文件:

您在本地拥有 PDF 文件，但没有包含它的存储桶。

将其上传到存储桶 [3]

使用该存储桶+文件 URI 通过 Cloud Vision API 读取它并将结果存储在存储桶中

将结果文件下载到本地机器 [4]

从存储桶中删除 PDF 文件和结果文件 [5]

只要您不介意将这些文件放在存储桶中一小段时间，这应该有效。

关于google-cloud-vision 如何阅读pdf文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51996399/