我的数据库中有一个未规范化的表,名称为 details
结构和示例数据如下(为图像道歉,只是认为它会更容易理解):
我的挑战是拆分列 - assignee、inventor 和 ipcsubclass
使用分隔符 |
到新表 {detail_inv
和 inventors
}、{detail_asg
和 assignees
} 以及 {detail_ipc
和 ipcsubclasses
}。
在所有这三种情况下,表架构都是相似的。例如,inventors 表上的列 - id
和 name
以及 detail_inv 表上的列 - detail_id
和 inventor_id
。每行必须只有一个名称,所有名称在 inventors 表中都是唯一的,ids 在 detail_inv 表中保持关系。
我为发明者尝试了以下代码的存储过程-我为 3 列制作了 3 个过程:(
drop procedure if exists normalise_details;
delimiter #
create procedure normalise_details()
proc_main:begin
declare v_cursor_done int unsigned default 0;
declare v_post_id int unsigned;
declare v_tags varchar(2048);
declare v_keyword varchar(50);
declare v_keyword_id mediumint unsigned;
declare v_tags_done int unsigned;
declare v_tags_idx int unsigned;
declare v_cursor cursor for select id, inventor from details order by id;
declare continue handler for not found set v_cursor_done = 1;
set autocommit = 0;
open v_cursor;
repeat
fetch v_cursor into v_post_id, v_tags;
set v_tags_done = 0;
set v_tags_idx = 1;
while not v_tags_done do
set v_keyword = substring(v_tags, v_tags_idx,
if(locate('|', v_tags, v_tags_idx) > 0,
locate('|', v_tags, v_tags_idx) - v_tags_idx,
length(v_tags)));
if length(v_keyword) > 0 then
set v_tags_idx = v_tags_idx + length(v_keyword) + 1;
set v_keyword = trim(v_keyword);
insert into inventors (name) values (v_keyword);
select id into v_keyword_id from inventors where name = v_keyword;
insert into details_inv (inventor_id, detail_id) values (v_keyword_id, v_post_id);
else
set v_tags_done = 1;
end if;
end while;
until v_cursor_done end repeat;
close v_cursor;
commit;
end proc_main #
delimiter ;
当我在一些随机测试数据上尝试这个时,它工作正常。当我在实际的 table 上这样做时,效果不佳。仅插入部分数据。 SQL 不会抛出任何错误(除了某些时候:“#1172 - 结果由多行组成”或“inventor_id 列不能为空”)
我尝试修改代码 MySQL - Insert comma separated list into normalized tables via stored procedure满足我的需求,但我失败了。
请帮助我,我的数据库表已经变得一团糟,大约有 500,000 行,这让我很难在每个项目(最近的项目有 ~200,000 行)上展开和管理巨大的数组。
最佳答案
查看 RolandoMySQLDBA 对此 dba.stackexchange question 的帖子我对触发存储过程的最初保留意见得到了证实。但是,如果您确定在任何给定时间只有几行 被用户输入更改,那么应该可以组合一个快速执行的程序。
但是,如果有许多用户并行工作,他们可能仍然会互相锁定。我不知道这是否真的会发生,因为存储过程不会更改 details
表中的任何内容。如有必要,您可以查看 this page的想法。
编辑:触发
我只是将我之前帖子的 SQLfiddle 扩展到这个 SQLfiddle with trigger ,包含以下内容:
CREATE TRIGGER normdet AFTER INSERT ON detail FOR EACH ROW
BEGIN
DECLARE n int; DECLARE word VARCHAR(64)
;SET n=cntparts(NEW.inventor)
;WHILE n>0 DO
SET word=part(new.inventor,n)
;IF NOT EXISTS (SELECT * FROM inv WHERE invname=word) THEN
INSERT INTO inv (invname) VALUES (word)
;END IF
;INSERT INTO det2inv (didid,diiid)
SELECT NEW.id,invid FROM inv WHERE invname=word
;SET n=n-1
;END WHILE
-- and similar loops for assignee and cls ...
;END;
我还定义了另一个函数
CREATE FUNCTION cntparts (var varchar(1024)) RETURNS int
RETURN 1+LENGTH(var)-LENGTH(REPLACE(var,'|',''));
计算给定 varchar
中的单词。这也可用于创建循环,而不是我在第一篇文章中为基本转换固定的 UNION
构造。
触发器现在负责处理所有新的 INSERT
。仍然需要编写一个类似的触发器来为 UPDATE
执行相同的操作。这应该不会太难...
在我的 SQLfiddle 中,我在 detail
触发器定义中插入了另一行。结果由两个比较 SELECT 语句列出,请参阅 fiddle .
回复最后一条评论:
好吧,正如我在原始答案中所建议的那样,您应该首先导入所有数据(无需安装任何触发器!!!!)然后仔细研究细节
-table 与 SELECT/UNION
语句。在你这样做之前,你应该通过使用
SELECT MAX(cntparts(inventor)) invcnt,
MAX(cntparts(assignee)) asscnt,
MAX(cntparts(ipsubclass)) clscnt
FROM detail
然后您可以调整每列所需的 SELECT/UNION
语句的数量。然后填写链接表,如 SQLfiddle 中所示。
也许整个过程需要一段时间,但您可以安全地处理一个接一个的表(首先是实际的属性表,然后是关联的链接表)。
之后您可以激活您的触发器,它应该然后只对单独添加的行起作用。
关于MySQL:拆分列(带分隔符)并插入新表的存储过程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18573727/