我试图为数据库创建一种数据导入机制,该机制要求读者具有高可用性,同时按计划提供不规则的新数据批量加载。
新数据只涉及添加了新数据集的三个表,以及它们引用的许多新数据集项目以及引用这些数据集的一些数据集项目元数据行。数据集可能具有数万个数据集项。
数据集项目在具有绝大多数(但不是全部)读取的列的几种组合上建立了索引,其中包括where子句中的数据集ID。由于存在索引,数据插入现在太慢了,无法跟上流入的速度,但是由于这些索引的读取者具有优先权,因此我无法删除主表上的索引,而需要处理副本。
因此,在快速切换到工作表以成为查询表/ View 的一部分之前,我需要将其复制,插入并重新索引。问题是如何快速执行该切换?
我研究了按数据集ID的范围对数据集项表进行分区,这是外键,但是由于这不是主键的一部分,因此SQL Server似乎并不那么容易。我无法使用易于索引的更新版本切换旧数据分区。
不同的文章建议使用分区,快照隔离和分区 View ,但没有一个直接回答这种情况,要么是关于大容量加载和归档旧数据(按日期划分),要么是简单的事务隔离而不考虑索引。
有没有直接解决这个看似普遍问题的例子?
当将新数据批量加载到大型索引表中时,人们有什么不同的策略可以真正减少索引被禁用的时间?
最佳答案
请注意,对列进行分区要求该列成为聚集索引键的一部分,而不是主键的一部分。两者是独立的。
但是,分区对您可以在表上执行的操作施加了很多约束。例如,只有在所有索引都对齐并且没有外键引用正在修改的表的情况下,切换才起作用。
如果可以在所有这些限制下使用分区,那么这可能是最好的方法。分区 View 为您提供了更大的灵活性,但有类似的限制:所有索引显然都对齐,并且传入的FK是不可能的。
分区数据并不容易。它不是一种“点击即完成”的解决方案。权衡的设置非常复杂。
关于sql-server-2008 - 大量插入索引较高的子项(Sql Server 2008),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11933163/