sql - 微不足道的任务 - 复杂的解决方案？

有一个小问题:

将 uniqueidentifier 分配给任何 externalId

一旦分配了 uniqueidentifier 就不要覆盖它 - 只需返回现有的 uniqueidentifier

想象一张 table

  ExternalId | Guid
--------------------------------
   some1     | accf-0334-dfdf-....

现在，扭曲是规模。我们希望像这样映射数十亿个 externalId，并且我们需要能够快速分配这些标识符(数千/秒)

我们从一个简单的 SQL Server 表开始，但它表现不佳。我们将相同的架构移至 Cassandra ColumnFamily - 写入速度非常快并且它是分片的，但是:在写入之前，我们必须读取(以确保尚未分配 externalId)，因此我们再次达到了读取查找 I/O 限制。

不幸的是，哈希(以确定唯一标识符)是不可能的，因为我们已经分配了数亿。缓存是有问题的，因为在大多数情况下，我们分配了一个“全新的 externalId”，因此它根本不会出现在数据库中。

有人对这里的解决方案有任何建议吗？

最佳答案

使用 SQL 服务器，并像这样创建你的表:

唯一 ExternalID 上的集群

NEWID() 的 Guid 默认值

确保 ExternalID 上的唯一聚集索引具有 IGNORE_DUP_KEY = ON

在这种情况下，您总是执行相同的两个(超快速)操作:

1 - 插入 ExternalID2 - 查询 GUID为 ExternalID
它不允许重复，但不会抛出错误。由于聚集索引，它也将是一个高度优化的查找。

您将需要经常重建索引，因为随着时间的推移，您将获得高度碎片化(因为您在非增量 varchar 上进行集群)，但它应该满足您的其他要求。

关于sql - 微不足道的任务 - 复杂的解决方案？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7906595/

sql - 微不足道的任务 - 复杂的解决方案？

上一篇：debugging - EF 6 中的 "Children could not be evaluated"

下一篇：SAS 宏引用 : pass equals sign as macro argument