我正在尝试将 DynamoDB 表备份到 S3。由于某种原因,通过 AWS 控制台上的导出来执行此操作 does not work 而且由于表不是那么大,我试图使用基于 boto 的脚本来完成它。这是我的脚本的主要块:
import boto.dynamodb2
from boto.dynamodb2.table import Table
c_ddb2 = boto.dynamodb2.connect_to_region(...)
table = Table("myTable",connection=c_ddb2)
# also connect to S3
scanres = table.scan()
for item in scanres:
# process and store next item
我收到以下异常:
Traceback (most recent call last):
File "/home/.../ddb2s3.py", line 155, in <module>
main()
File "/home/.../ddb2s3.py", line 124, in main
for it in scanres:
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/results.py", line 62, in next
self.fetch_more()
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/results.py", line 144, in fetch_more
results = self.the_callable(*args, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/table.py", line 1213, in _scan
**kwargs
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 1712, in scan
body=json.dumps(params))
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 2100, in make_request
retry_handler=self._retry_handler)
File "/usr/local/lib/python2.7/dist-packages/boto/connection.py", line 932, in _mexe
status = retry_handler(response, i, next_sleep)
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 2134, in _retry_handler
response.status, response.reason, data)
boto.dynamodb2.exceptions.ProvisionedThroughputExceededException: ProvisionedThroughputExceededException: 400 Bad Request
{u'message': u'The level of configured provisioned throughput for the table was exceeded. Consider increasing your provisioning level with the UpdateTable API', u'__type': u'com.amazonaws.dynamodb.v20120810#ProvisionedThroughputExceededException'}
读取预配置吞吐量设置为 1000,因此应该足够了。当我运行脚本并得到异常时,写入配置的 t/p 被设置为一个低值,我不想调整它,因为它会干扰偶尔批量写入表,但为什么我需要触摸它?
为什么我收到这个错误? AWS 控制台监控
MyTable
显示很少读取,所以它远低于预配的 1000。我做错了什么?
最佳答案
如果您已检查 AWS 管理控制台并确认即使读取容量远低于预置容量也会发生节流事件,则最可能的答案是您的哈希键分布不均。随着您的 DynamoDB 表的大小和容量增加,DynamoDB 服务会自动将您的表拆分为多个分区。然后它将使用项目的散列键来确定存储项目的分区。此外,您的预配置读取容量也会在分区之间平均分配。
如果你有一个分布良好的哈希键,这一切都很好。但是,如果您的散列键没有很好地分布,则可能会导致您的全部或大部分读取来自单个分区。因此,例如,如果您有 10 个分区,并且表上的预置读取容量为 1000,则每个分区的读取容量为 100。如果您的所有读取都命中一个分区,您将被限制在 100 个读取单元而不是 1000。
不幸的是,真正解决这个问题的唯一方法是选择一个更好的散列并用这些散列值重写表。
关于amazon-web-services - 迭代 dynamodb 表时出现 ProvisionedThroughputExceededException 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29101371/