python - 如何检查亚马逊S3上的两个大文件是否相同？

我需要使用 boto 在 amazon S3 上将大文件 (>5GB) 从同一个存储桶移动到同一个存储桶。为此，我需要使用 multipart API，它不使用 etag 的 md5 和。

虽然我认为(只有 98% 确定)我的代码是正确的，但我想在删除原始代码之前验证新副本没有损坏。然而，除了下载两个对象并在本地比较它们之外，我找不到任何方法，这对于 5GB 以上的文件来说是一个相当漫长的过程。

郑重声明，下面是我用 boto 复制大文件的代码，也许这可以帮助某人。如果没有好的解决方案来解决我的问题，也许有人会发现错误并阻止我损坏数据。

import boto

copy_size = 1000000000  #1e9
bucket_name = 'mybucket'
orig_key_name = 'ABigFile'
dest_key_name = 'ABigFile.clone'

s3 = boto.connect_s3()
mybucket = s3.get_bucket(bucket_name)

key = mybucket.get_key(orig_key_name)

mp = mybucket.initiate_multipart_upload(dest_key_name)  #keyname

print 'key size: ', key.size

count = 1 
start = 0
end = -1

while end < key.size-1:
   print 'count: ', count
   start = end + 1 
   end = min( key.size -1 , start + copy_size )
   mp.copy_part_from_key(bucket_name, orig_key_name, count , start, end )
   count+=1

mp.complete_upload()

此代码仅适用于原始 key 大小 >= 5368709121 字节。

最佳答案

您应该能够计算数据流上的 SHA-1 哈希值(see this SO thread 对于 C++ 代码，这可以为 Python 方法提供提示)。通过将哈希数据流重定向到 /dev/null 的等效项，您应该能够比较两个文件的 SHA-1 哈希值，而无需先将它们下载到本地。

关于python - 如何检查亚马逊S3上的两个大文件是否相同？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9236293/

python - 如何检查亚马逊S3上的两个大文件是否相同？

上一篇：python - QGIS - 在 Qtreeview 中列出数据库表

下一篇：python - 使用 PyDev 配置 Jython、处理和 OpenGL