google-drive-api - 如何在 Google Colab 中提取一个非常大的文件

标签 google-drive-api google-colaboratory

我正在尝试提取一个 14.6 GB 的 7z 文件 ( https://archive.org/download/stackexchange/stackoverflow.com-Posts.7z )。

我已将其下载并保存在我的 Google 云端硬盘中。我将驱动器安装到 Google Colab,然后将当前目录更改为文件所在的位置:os.chdir('/content/drive/My Drive/.../')

当我尝试解压缩文件 !p7zip -k -d stackoverflow.com-Posts.7z 时,它使用了当前实例的 HDD 空间,在此过程中,它用完了所有可用空间分配的硬盘空间,因此解压缩突然终止。

有没有办法在不使用实例的硬盘空间的情况下提取文件,或者以 block 的形式提取文件,以便提取成功。

PS:我相信,解压缩后的文件大小约为 100 GB

最佳答案

您可以尝试使用 libarchive 按 block 读取数据,而无需先解压缩。

https://github.com/dsoprea/PyEasyArchive

这是一个 example notebook

关于google-drive-api - 如何在 Google Colab 中提取一个非常大的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60708805/

相关文章:

google-colaboratory - 谷歌 Colab : Disk size with GPU backend

python - 使用 detectorron2 进行语义分割

java - Google 云端硬盘复制、团队云端硬盘(服务)到我的云端硬盘(用户)

c# - Google 驱动器重定向 URI 不匹配以及如何从 ASP.net Core 2.0 中的谷歌驱动器获取文件列表

javascript - 无法通过 Google Drive API 下载文件

javascript - 获取 Google 云端硬盘文件夹中的最新文件

python - Colab 以 ^C 结束

python - 我在 Colab 上对图像分类模型的训练总是停止而不会出现错误

linux - 使用 gdrive 从 google drive 按名称删除文件夹

python - 运行 'conda init'后关闭并重启shell