mysql - 如何在非常大的 MySQL 表上提高 INSERT 性能

标签 mysql database performance insert insert-update

我正在处理大型 MySQL 数据库,我需要提高特定表上的 INSERT 性能。这个包含大约 2 亿行,其结构如下:

(一个小前提:我不是数据库专家,所以我写的代码可能是基于错误的基础。请帮助我理解我的错误:))

CREATE TABLE IF NOT EXISTS items (
    id INT NOT NULL AUTO_INCREMENT,
    name VARCHAR(200) NOT NULL,
    key VARCHAR(10) NOT NULL,
    busy TINYINT(1) NOT NULL DEFAULT 1,
    created_at DATETIME NOT NULL,
    updated_at DATETIME NOT NULL,

    PRIMARY KEY (id, name),
    UNIQUE KEY name_key_unique_key (name, key),
    INDEX name_index (name)
) ENGINE=MyISAM
PARTITION BY LINEAR KEY(name)
PARTITIONS 25;

我每天都会收到许多 csv 文件,其中每一行都由“name;key”对组成,因此我必须解析这些文件(为每一行添加值 created_at 和 updated_at)并将这些值插入到我的表中。在这一个中,“name”和“key”的组合必须是唯一的,所以我实现了如下插入过程:

CREATE TEMPORARY TABLE temp_items (
    id INT NOT NULL AUTO_INCREMENT,
    name VARCHAR(200) NOT NULL, 
    key VARCHAR(10) NOT NULL, 
    busy TINYINT(1) NOT NULL DEFAULT 1,  
    created_at DATETIME NOT NULL, 
    updated_at DATETIME NOT NULL,  
    PRIMARY KEY (id) 
    ) 
ENGINE=MyISAM;

LOAD DATA LOCAL INFILE 'file_to_process.csv' 
INTO TABLE temp_items
FIELDS TERMINATED BY ',' 
OPTIONALLY ENCLOSED BY '\"' 
(name, key, created_at, updated_at); 

INSERT INTO items (name, key, busy, created_at, updated_at) 
(
    SELECT temp_items.name, temp_items.key, temp_items.busy, temp_items.created_at, temp_items.updated_at 
    FROM temp_items
) 
ON DUPLICATE KEY UPDATE busy=1, updated_at=NOW();

DROP TEMPORARY TABLE temp_items;

刚才显示的代码可以让我达到我的目标,但是要完成执行,它需要大约 48 小时,这是一个问题。 我认为这种糟糕的性能是由于脚本必须检查一个非常大的表(2 亿行)并且对于“name;key”对是唯一的每次插入。

如何提高脚本的性能?

提前感谢大家。

最佳答案

您可以使用以下方法来加快插入速度:

  1. 如果您同时从同一客户端插入多行,请使用包含多个 VALUES 列表的 INSERT 语句一次插入多行。这比使用单独的单行 INSERT 语句快得多(在某些情况下快很多倍)。如果要向非空表中添加数据,则可以调整 bulk_insert_buffer_size 变量以使数据插入速度更快。

  2. 从文本文件加载表格时,使用 LOAD DATA INFILE。这通常比使用 INSERT 语句快 20 倍。

  3. 利用列具有默认值这一事实。仅当要插入的值与默认值不同时才显式插入值。这减少了 MySQL 必须执行的解析并提高了插入速度。

引用:MySQL.com: 8.2.4.1 Optimizing INSERT Statements

关于mysql - 如何在非常大的 MySQL 表上提高 INSERT 性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18033060/

相关文章:

mysql - 计算型 SQL 查询中的多对多关系表引用 - App Maker

java - java中的数据库可以像Android中的数据库一样简单吗?

sql - mysql 左连接查询需要很多时间来执行

mysql - SQL中如何获取频繁的时间间隔?

mysql - 时间差按 2 个不同参数分组

r - 何时在 R 中使用 for 循环

performance - 将默认 docker 容器移动到磁盘上的另一个位置

database - Mock 框架可以为我做这个吗?

database - SQLite EXP函数

c++ - 当我使用非 cst 内存模型时,为什么我的自旋锁实现性能最差?