MySQL:拆分列(带分隔符)并插入新表的存储过程

标签 mysql sql stored-procedures split database-normalization

我的数据库中有一个未规范化的表,名称为 details 结构和示例数据如下(为图像道歉,只是认为它会更容易理解): **Schema**

我的挑战是拆分列 - assignee、inventor 和 ipcsubclass 使用分隔符 | 到新表 {detail_invinventors}、{detail_asgassignees} 以及 {detail_ipcipcsubclasses}。

在所有这三种情况下,表架构都是相似的。例如,inventors 表上的列 - idname 以及 detail_inv 表上的列 - detail_idinventor_id。每行必须只有一个名称,所有名称在 inventors 表中都是唯一的,ids 在 detail_inv 表中保持关系。

我为发明者尝试了以下代码的存储过程-我为 3 列制作了 3 个过程:(

drop procedure if exists normalise_details;

delimiter #

create procedure normalise_details()
proc_main:begin

declare v_cursor_done int unsigned default 0;
declare v_post_id int unsigned;
declare v_tags varchar(2048);
declare v_keyword varchar(50);

declare v_keyword_id mediumint unsigned;

declare v_tags_done int unsigned;
declare v_tags_idx int unsigned;

declare v_cursor cursor for select id, inventor from details order by id;
declare continue handler for not found set v_cursor_done = 1;

set autocommit = 0; 

open v_cursor;
repeat

  fetch v_cursor into v_post_id, v_tags;
  set v_tags_done = 0;       
  set v_tags_idx = 1;

  while not v_tags_done do

    set v_keyword = substring(v_tags, v_tags_idx, 
      if(locate('|', v_tags, v_tags_idx) > 0, 
        locate('|', v_tags, v_tags_idx) - v_tags_idx, 
        length(v_tags)));

      if length(v_keyword) > 0 then

        set v_tags_idx = v_tags_idx + length(v_keyword) + 1;

        set v_keyword = trim(v_keyword);
        insert into inventors (name) values (v_keyword);

        select id into v_keyword_id from inventors where name = v_keyword;
        insert into details_inv (inventor_id, detail_id) values (v_keyword_id, v_post_id);

      else
        set v_tags_done = 1;
      end if;

  end while;

until v_cursor_done end repeat;

close v_cursor;

commit;

end proc_main #


delimiter ;

当我在一些随机测试数据上尝试这个时,它工作正常。当我在实际的 table 上这样做时,效果不佳。仅插入部分数据。 SQL 不会抛出任何错误(除了某些时候:“#1172 - 结果由多行组成”或“inventor_id 列不能为空”)

我尝试修改代码 MySQL - Insert comma separated list into normalized tables via stored procedure满足我的需求,但我失败了。

请帮助我,我的数据库表已经变得一团糟,大约有 500,000 行,这让我很难在每个项目(最近的项目有 ~200,000 行)上展开和管理巨大的数组。

最佳答案

查看 RolandoMySQLDBA 对此 dba.stackexchange question 的帖子我对触发存储过程的最初保留意见得到了证实。但是,如果您确定在任何给定时间只有几行 被用户输入更改,那么应该可以组合一个快速执行的程序。

但是,如果有许多用户并行工作,他们可能仍然会互相锁定。我不知道这是否真的会发生,因为存储过程不会更改 details 表中的任何内容。如有必要,您可以查看 this page的想法。

编辑:触发

我只是将我之前帖子的 SQLfiddle 扩展到这个 SQLfiddle with trigger ,包含以下内容:

CREATE TRIGGER normdet AFTER INSERT ON detail FOR EACH ROW
BEGIN
  DECLARE n int; DECLARE word VARCHAR(64)

 ;SET n=cntparts(NEW.inventor)
 ;WHILE n>0 DO
   SET word=part(new.inventor,n)
   ;IF NOT EXISTS (SELECT * FROM inv WHERE invname=word) THEN
     INSERT INTO inv (invname) VALUES (word)
   ;END IF
   ;INSERT INTO det2inv (didid,diiid) 
    SELECT NEW.id,invid FROM inv WHERE invname=word
   ;SET n=n-1
 ;END WHILE
  -- and similar loops for assignee and cls ...
;END;

我还定义了另一个函数

CREATE FUNCTION cntparts (var varchar(1024)) RETURNS int
RETURN 1+LENGTH(var)-LENGTH(REPLACE(var,'|',''));

计算给定 varchar 中的单词。这也可用于创建循环,而不是我在第一篇文章中为基本转换固定的 UNION 构造。

触发器现在负责处理所有新的 INSERT。仍然需要编写一个类似的触发器来为 UPDATE 执行相同的操作。这应该不会太难...

在我的 SQLfiddle 中,我在 detail 触发器定义中插入了另一行。结果由两个比较 SELECT 语句列出,请参阅 fiddle .

回复最后一条评论:

好吧,正如我在原始答案中所建议的那样,您应该首先导入所有数据(无需安装任何触发器!!!!)然后仔细研究细节-table 与 SELECT/UNION 语句。在你这样做之前,你应该通过使用

SELECT MAX(cntparts(inventor)) invcnt,
       MAX(cntparts(assignee)) asscnt,
       MAX(cntparts(ipsubclass)) clscnt 
FROM detail

然后您可以调整每列所需的 SELECT/UNION 语句的数量。然后填写链接表,如 SQLfiddle 中所示。

也许整个过程需要一段时间,但您可以安全地处理一个接一个的表(首先是实际的属性表,然后是关联的链接表)。

之后您可以激活您的触发器,它应该然后只对单独添加的行起作用。

关于MySQL:拆分列(带分隔符)并插入新表的存储过程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18573727/

相关文章:

sql - 我如何获得 7 天前的日期?

sql-server-2008 - 如何用新名称复制存储过程?

sql-server - 在 sp_executesql 中执行远程存储过程

php - array_intersect 和 array_unique 的不规则之处

mysql - 无法更新大尺寸文本的列值?

mysql - 在 Ubuntu 上使用 APT 安装的 MySQL 的 BASEDIR 在哪里?

mysql - SQL JOIN 表和 GROUP BY 以获得正确的行

php - 在 mysql 中查找、修剪和更新列

MySQL 声明语法错误

mysql - 有人让 mysql workbench 5.2 与 mamp 一起工作吗?