python - GSutil 使用跟踪器文件恢复下载

标签 python shell unix gsutil

我正在开发一个unix shell脚本,它将文件从GCS下载到我的服务器上。我正在使用该命令,它运行得很好。

python gsutil -m cp -R gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath  

我正在下载的所有文件的总大小为 30GB。 我通过在 .boto 文件中设置 state_dir 在服务器上的特定位置创建跟踪器文件。

我想建立重试机制,以便如果某些下载未完成,则不应重新启动整个作业,而应仅下载那些在上次运行中失败或未下载的文件。

请指教

最佳答案

您可以使用 cp 的 list 文件功能来执行此操作:

python gsutil -m cp -R -L manifest.log gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath

您执行的每个唯一 cp 命令都需要一个单独的 list 文件。查看 gsutil help cp 中的“-L”选项文档了解详情。

关于python - GSutil 使用跟踪器文件恢复下载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34322831/

相关文章:

python - 如何将 Python 项目链接到 WSGI 文件?

python - 将值分配给由正则表达式获得的一组列

python - 使用 Python 创建 2 人游戏

shell - Heredoc 构造中的 shell 代码可以访问其父脚本的标准输入吗?

c - 在 C 中获取键盘中断

python - 在 Python 中重复类方法

windows - 使Windows批处理文件在程序退出时不关闭

bash - Unix 脚本在每行末尾附加 ^M

linux - 如何在 Linux 中启动 Apache 服务器

用于文本/字符串处理的 Java 库,类似于 unix/linux 实用程序