python - 如何检查亚马逊S3上的两个大文件是否相同?

标签 python amazon-s3 large-files multipart boto

我需要使用 boto 在 amazon S3 上将大文件 (>5GB) 从同一个存储桶移动到同一个存储桶。为此,我需要使用 multipart API,它不使用 etag 的 md5 和。

虽然我认为(只有 98% 确定)我的代码是正确的,但我想在删除原始代码之前验证新副本没有损坏。然而,除了下载两个对象并在本地比较它们之外,我找不到任何方法,这对于 5GB 以上的文件来说是一个相当漫长的过程。

郑重声明,下面是我用 boto 复制大文件的代码,也许这可以帮助某人。如果没有好的解决方案来解决我的问题,也许有人会发现错误并阻止我损坏数据。

import boto

copy_size = 1000000000  #1e9
bucket_name = 'mybucket'
orig_key_name = 'ABigFile'
dest_key_name = 'ABigFile.clone'

s3 = boto.connect_s3()
mybucket = s3.get_bucket(bucket_name)

key = mybucket.get_key(orig_key_name)

mp = mybucket.initiate_multipart_upload(dest_key_name)  #keyname

print 'key size: ', key.size

count = 1 
start = 0
end = -1

while end < key.size-1:
   print 'count: ', count
   start = end + 1 
   end = min( key.size -1 , start + copy_size )
   mp.copy_part_from_key(bucket_name, orig_key_name, count , start, end )
   count+=1

mp.complete_upload()

此代码仅适用于原始 key 大小 >= 5368709121 字节。

最佳答案

您应该能够计算数据流上的 SHA-1 哈希值(see this SO thread 对于 C++ 代码,这可以为 Python 方法提供提示)。通过将哈希数据流重定向到 /dev/null 的等效项,您应该能够比较两个文件的 SHA-1 哈希值,而无需先将它们下载到本地。

关于python - 如何检查亚马逊S3上的两个大文件是否相同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9236293/

相关文章:

python - tf.data.Dataset 与 tf.keras 的性能

python - 从特定索引开始的数据框 cummin 列

Python Flask 下载文件返回 0 字节

node.js - 通过API网关以二进制格式将图像从AWS Lambda上传到S3

reactjs - 移动到 Cloudfront + SSL 后,应用程序中的 React 路由器链接损坏

python - 许多巨大的 csv 文件的高效合并

python - 以 pythonic 方式使用 i > j ( > k) 迭代多个索引

amazon-web-services - 使用 Bucketname 时的 S3 静态网站托管?

在不读取整个文件的情况下以相反的顺序 grep

wget - Artifactory 大量下载失败