python - 使用 Django (Python) 在 DynamoDB 中自动生成 key

标签 python django amazon-web-services amazon-dynamodb

我正在为我的项目使用 NoSQL DynamoDB。如何自动生成可用于查询的 key ?

 DynamoDB_view(tableName, campaign_tag_app_group_map_id, campaign_id,
                      tag_id, tag_type, app_id, group_id, group_p, tenant_id,
                      insertion_timestamp, insertion_user_id):
    print "in func DynamoDB_view"
    def insert_to_dynamo(conn, tableName, campaign_tag_app_group_map_id, campaign_id,
                      tag_id, tag_type, app_id, group_id, group_p, tenant_id,
                      insertion_timestamp, insertion_user_id):
        print "in Insert"
        print tableName
# uswd the data as random key generation just for now. this is inappropriate
        data = str(uuid.uuid4().get_hex()[0:16]) 
        table = conn.get_table(tableName)
        item_data = {
        'campaign_id': str(campaign_id),
        'tag_id': tag_id,
        'tag_type': tag_type,
        'app_id' : app_id,
        'group_id' : str(group_id),
        'group_p' : group_p,
        'tenant_id' : str(tenant_id),
        'insertion_timestamp' : str(datetime.now()),
        'insertion_user_id' : str(insertion_user_id)
        }
        item = table.new_item(
        # Our hash key is 'forum'
        hash_key=data,
        
        range_key='Check this out!',
       
        attrs=item_data
        )
        item.put()
    def connection_dynamo(tableName, campaign_tag_app_group_map_id, campaign_id,
                      tag_id, tag_type, app_id, group_id, group_p, tenant_id,
                      insertion_timestamp, insertion_user_id):
   
        conn = boto.dynamodb.connect_to_region(
        'us-east-1',
        aws_access_key_id=settings.ACCESS_KEY,
        aws_secret_access_key=settings.PASS_KEY)    

        insert_to_dynamo(conn,tableName, campaign_tag_app_group_map_id, campaign_id,
                      tag_id, tag_type, app_id, group_id, group_p, tenant_id,
                      insertion_timestamp, insertion_user_id)
        
    
    connection_dynamo(tableName, campaign_tag_app_group_map_id, campaign_id,
                      tag_id, tag_type, app_id, group_id, group_p, tenant_id,
                      insertion_timestamp, insertion_user_id)
   

最佳答案

这是一些文档的链接:

http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/QueryAndScan.html

对于查询,您必须提供散列键并且必须检查是否相等。如果你有一个范围键,它是可选的,你可以使用它们执行更广泛的操作,而不仅仅是相等。为了性能,您不需要哈希键的“热键”(始终使用相同的键)。

很多答案都归结为您在进行查询时手头有什么,以及您是否需要担心会降低性能。自动生成一些随机的东西会让你免于热键问题,但是当你返回查询你的数据时你可能无法重现这些值(即使你总是为 RNG 使用相同的种子,你的头可能会在之前爆炸你得到你想要的散列键)。这可能会迫使您进入扫描而不是查询的情况,这通常是不可取的。

在查询时,您是否可以使用任何 campaign_id、group_id、tenant_id 等字段?如果答案是肯定的,那么您至少有一些候选哈希键。您仍然应该考虑表中将有多少数据,例如,其中有多少具有相同的 group_id。如果您在查询时同时拥有 group_id 和 tenant_id,并且 tenant_id 值的多样性更高,请使用它们。如果这有助于分散数据,您还可以组合两个 ID 来创建键值。

如果您只有 group_id 并且只有少量组,那么在 group_id 的末尾附加一些随机性以避免热键对您没有帮助。从执行查询的角度来看,您将回到同样的情况,您有一堆基本上无法恢复的 key 。在这种情况下,也许最不痛苦的事情是为每个 group_id 都有一个表,使用完全随机的 key 来实现良好的传播,并接受您的数据强制您进行扫描。

如果您可以获得一个好的散列键,那么您最常见的查询可能会决定您对范围键的选择。因此,如果您通常查询最近 24 小时内的记录,insertion_timestamp 可能是一个不错的选择。如果一些其他因素进入大量查询,请改用它,例如,如果您将查询结果限制为某些事件,而这些事件没有完全随机的名称。或者,如果您有 3 个依赖于不同范围/条件的常见查询,那么您可能想要添加一些本地二级索引 ( Difference between local and global indexes in DynamoDB)。

回到您可能要问的问题,如果您在查询数据时手头什么都没有,那么您可能会被搞砸,您可能必须进行扫描才能返回你的数据。在这种情况下,为您的哈希键使用尽可能随机的东西至少对您的写入有好处,并将确保数据的良好分布。

抱歉,这有点乱,希望其中有帮助。如果我完全误解了或者还有其他一些未说明的限制,请编辑您的问题以反射(reflect)出来。

关于python - 使用 Django (Python) 在 DynamoDB 中自动生成 key ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29983189/

相关文章:

python - 如何将一列乘以另一列乘以该月第一天的值

javascript - Django selenium如何使用find_element获取页面文本

python - 如何在 django 中获取一周内每小时的平均值?

amazon-web-services - 通过 Cloudformation 创建资源时无法通过 SSH 连接到我的 ec2 实例

javascript - 在 Node 中解析 SQSretrieveMessages

amazon-web-services - 根据 Ansible 中的索引将 EC2 主机添加到不同的组

python - 在 pandas 数据框中,计算某一列中某个条件发生的次数?

python - 如何使用pygraphviz增加点图中节点之间的间距?

Django 将更改保存到数据库

python - 在 Python 中通过字典传递文本