sql - 微不足道的任务 - 复杂的解决方案?

标签 sql cassandra large-data-volumes

有一个小问题:

  • 将 uniqueidentifier 分配给任何 externalId
  • 一旦分配了 uniqueidentifier 就不要覆盖它 - 只需返回现有的 uniqueidentifier

  • 想象一张 table
      ExternalId | Guid
    --------------------------------
       some1     | accf-0334-dfdf-....
    

    现在,扭曲是规模。我们希望像这样映射数十亿个 externalId,并且我们需要能够快速分配这些标识符(数千/秒)

    我们从一个简单的 SQL Server 表开始,但它表现不佳。我们将相同的架构移至 Cassandra ColumnFamily - 写入速度非常快并且它是分片的,但是:在写入之前,我们必须读取(以确保尚未分配 externalId),因此我们再次达到了读取查找 I/O 限制。

    不幸的是,哈希(以确定唯一标识符)是不可能的,因为我们已经分配了数亿。缓存是有问题的,因为在大多数情况下,我们分配了一个“全新的 externalId”,因此它根本不会出现在数据库中。

    有人对这里的解决方案有任何建议吗?

    最佳答案

    使用 SQL 服务器,并像这样创建你的表:

  • 唯一 ExternalID 上的集群
  • NEWID() 的 Guid 默认值
  • 确保 ExternalID 上的唯一聚集索引具有 IGNORE_DUP_KEY = ON

  • 在这种情况下,您总是执行相同的两个(超快速)操作:

    1 - 插入 ExternalID2 - 查询 GUIDExternalID
    它不允许重复,但不会抛出错误。由于聚集索引,它也将是一个高度优化的查找。

    您将需要经常重建索引,因为随着时间的推移,您将获得高度碎片化(因为您在非增量 varchar 上进行集群),但它应该满足您的其他要求。

    关于sql - 微不足道的任务 - 复杂的解决方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7906595/

    相关文章:

    c# - 如何使用 LLBLGen 连接具有条件的表?

    c# - Cassandra 大量插入时内存不足

    cassandra - 用于写入和查询每月活跃用户 (MAU) 和每日活跃用户 (DAU) 的架构?

    performance - 高效的文件I/O和字符串到浮点的转换

    php - 通过 PHP 从 MySQL 获取 100K 行时的奇怪行为

    sql - Oracle 解释计划中的成本后缀

    c# - Linq 中的左修剪

    sql - SSIS 包 - 循环执行 SQL 任务的不同连接

    java - 使用 Datastax java 驱动程序插入列族?