我正在开发一个unix shell脚本,它将文件从GCS下载到我的服务器上。我正在使用该命令,它运行得很好。
python gsutil -m cp -R gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath
我正在下载的所有文件的总大小为 30GB。 我通过在 .boto 文件中设置 state_dir 在服务器上的特定位置创建跟踪器文件。
我想建立重试机制,以便如果某些下载未完成,则不应重新启动整个作业,而应仅下载那些在上次运行中失败或未下载的文件。
请指教
最佳答案
您可以使用 cp 的 list 文件功能来执行此操作:
python gsutil -m cp -R -L manifest.log gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath
您执行的每个唯一 cp 命令都需要一个单独的 list 文件。查看 gsutil help cp 中的“-L”选项文档了解详情。
关于python - GSutil 使用跟踪器文件恢复下载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34322831/