我需要使用 boto 在 amazon S3 上将大文件 (>5GB) 从同一个存储桶移动到同一个存储桶。为此,我需要使用 multipart API,它不使用 etag 的 md5 和。
虽然我认为(只有 98% 确定)我的代码是正确的,但我想在删除原始代码之前验证新副本没有损坏。然而,除了下载两个对象并在本地比较它们之外,我找不到任何方法,这对于 5GB 以上的文件来说是一个相当漫长的过程。
郑重声明,下面是我用 boto 复制大文件的代码,也许这可以帮助某人。如果没有好的解决方案来解决我的问题,也许有人会发现错误并阻止我损坏数据。
import boto
copy_size = 1000000000 #1e9
bucket_name = 'mybucket'
orig_key_name = 'ABigFile'
dest_key_name = 'ABigFile.clone'
s3 = boto.connect_s3()
mybucket = s3.get_bucket(bucket_name)
key = mybucket.get_key(orig_key_name)
mp = mybucket.initiate_multipart_upload(dest_key_name) #keyname
print 'key size: ', key.size
count = 1
start = 0
end = -1
while end < key.size-1:
print 'count: ', count
start = end + 1
end = min( key.size -1 , start + copy_size )
mp.copy_part_from_key(bucket_name, orig_key_name, count , start, end )
count+=1
mp.complete_upload()
此代码仅适用于原始 key 大小 >= 5368709121 字节。
最佳答案
您应该能够计算数据流上的 SHA-1 哈希值(see this SO thread 对于 C++ 代码,这可以为 Python 方法提供提示)。通过将哈希数据流重定向到 /dev/null
的等效项,您应该能够比较两个文件的 SHA-1 哈希值,而无需先将它们下载到本地。
关于python - 如何检查亚马逊S3上的两个大文件是否相同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9236293/