sql - 为什么 Cassandra 在插入重复记录时不会报错？

CQL 版本 5.0.1

Cassandra 版本 3.11.9

root@3fdb49de030c:/# cqlsh
Connected to Test Cluster at 127.0.0.1:1234.
[cqlsh 5.0.1 | Cassandra 3.11.9 | CQL spec 3.4.4 | Native protocol v4]
Use HELP for help.
cqlsh>

在插入同一条记录时(如下图)，

cqlsh> use mykeyspace;
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace> select * from mytable ;

 column1                              | column2                              | column3                         | column4           | column5                      | column6
--------------------------------------+--------------------------------------+---------------------------------+-------------------+---------------------------------+--------------
 54dc8b12-a934-4f2e-8a0d-e7eba3faa47e | 587df674-bc77-481b-b974-ddebd203e371 | 2021-04-02 13:29:37.841000+0000 | sample@abc.com | 2021-04-02 13:29:37.841000+0000 | [{"abc": "def"}]

(1 rows)
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace> // does not give error on changin non-primary key columns
cqlsh:mykeyspace> INSERT  INTO   mytable (column1, column2, column4, column6, column3, column5)   VALUES (54dc8b12-a934-4f2e-8a0d-e7eba3faa47e,  587df674-bc77-481b-b974-ddebd203e371, 'sample@abc.com', 'xyz',toTimestamp(now()),toTimestamp(now()));
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace> select * from mytable ;
    
     column1                              | column2                              | column3                         | column4           | column5                      | column6
    --------------------------------------+--------------------------------------+---------------------------------+-------------------+---------------------------------+--------------
     54dc8b12-a934-4f2e-8a0d-e7eba3faa47e | 587df674-bc77-481b-b974-ddebd203e371 | 2021-04-02 13:29:37.841000+0000 | sample@abc.com | 2021-04-02 13:29:37.841000+0000 | xyz
    
    (1 rows)
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace> // does not give error on changing one of the  primary key column
cqlsh:mykeyspace> INSERT  INTO   mytable (column1, column2, column4, column6, column3, column5)   VALUES (54dc8b12-a934-4f2e-8a0d-e7eba3faa47e,  587df674-bc77-481b-b974-ddebd203e372, 'garbage', 'garbage',toTimestamp(now()),toTimestamp(now()));
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace> select * from mytable ; // PK(column1:column2)

 column1                              | column2                              | column3                         | column4           | column5                         | column6
--------------------------------------+--------------------------------------+---------------------------------+---------------+---------------------------------+-----------------------
 54dc8b12-a934-4f2e-8a0d-e7eba3faa47e | 587df674-bc77-481b-b974-ddebd203e371 | 2020-04-02 14:20:24.028000+0000 |    sample@abc.com | 2020-04-02 14:20:24.028000+0000 |               xyz
 54dc8b12-a934-4f2e-8a0d-e7eba3faa47e | 587df674-bc77-481b-b974-ddebd203e372 | 2020-04-02 14:26:55.101000+0000 |           garbage | 2020-04-02 14:26:55.101000+0000 |           garbage

(2 rows)
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace> DESCRIBE TABLE mytable;

CREATE TABLE mykeyspace.mytable (
    column1 uuid,
    column2 uuid,
    column3 timestamp,
    column4 text,
    column5 timestamp,
    column6 text,
    PRIMARY KEY (column1, column2)
)WITH CLUSTERING ORDER BY (column2 ASC)
    AND bloom_filter_fp_chance = 0.01
    AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
    AND comment = ''
    AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
    AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';

cqlsh:mykeyspace>
cqlsh:mykeyspace>
cqlsh:mykeyspace>

Cassandra 是否在插入重复记录(具有相同的主键)时不显示错误？ 而是更新记录

如果不是，如何在使用 gocql 插入相同记录时错误处理重复记录？对于 http POST 请求...我们还没有使用幂等键

RDBMS SQL 服务器给出类似 Cannot insert duplicate key row 的错误

最佳答案

不幸的是，Cassandra 以其“锋利的边缘”而闻名，这就是其中之一。

Cassandra 看不出 INSERT 和 UPDATE 之间的区别。它们本质上是相同的。提供的键指示数据应该写在哪里，基于日志的存储引擎将它放在那里。这意味着您实际上可以使用 INSERT 执行更新，并使用 UPDATE 执行插入。

为了按照您描述的方式工作，Cassandra 必须知道所提供的键的值是否已经存在。唯一的方法是先读取这些键上的数据，然后写入。在并发、高吞吐量的分布式数据场景中，这样做是不安全的，因为在完成读取和执行写入之间可能会发生另一次写入。

如果您需要这种行为，您可以调用 lightweight transaction使用 IF [NOT] EXISTS 条件:

INSERT  INTO   mytable (column1, column2, column4, column6, column3, column5)
VALUES (54dc8b12-a934-4f2e-8a0d-e7eba3faa47e,  587df674-bc77-481b-b974-ddebd203e371, 'sample@abc.com', 'xyz',toTimestamp(now()),toTimestamp(now()))
IF NOT EXISTS;

这实际上是在后台写入之前执行读取，因此确实对性能有一些影响。

关于sql - 为什么 Cassandra 在插入重复记录时不会报错？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66920348/

sql - 为什么 Cassandra 在插入重复记录时不会报错？

上一篇：python - 在不同的窗口中打开 Python 交互选项卡

下一篇：java - 启动我的 Spring Boot 应用程序时显示 JAXB 警告