我正在使用 google drive api 来存储和检索 pdf 文件。我想使用搜索参数查询这些文件。
但在我开始实现之前。我想知道谷歌如何处理大型 pdf 文件的索引。 (600+ 页 25Mb+)我想知道基于文本的 pdf。(他们不需要 ocr)
我在驱动器网站上尝试了一些搜索,但并不总是有效。
我想知道是否有任何限制以及它们是什么。
最佳答案
根据 this page对于带 OCR 的 PDF:
图像(.jpg、.gif、.png)和 PDF 文件 (.pdf) 的最大大小为 2 MB。对于 PDF 文件,我们在搜索要提取的文本时只查看前 10 页。
和this page对于带有文本的 PDF:
您可以通过以下方式搜索 PDF 和图像文件中的文本:
- 在网络版 Google 云端硬盘的搜索框中键入查询。
- 打开 Google 云端硬盘查看器并使用右上角的搜索框。
理论上,您应该能够搜索您上传的任何文本文档或基于文本的 PDF 的前 100 页。您还可以搜索在您云端硬盘上的任何图像 PDF 的前十页上找到的文本。
关于java - Google Drive 索引大文件的限制是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12161714/