sql - SAS Proc SQL 合并时是否使用索引

标签 sql performance indexing sas

考虑以下(诚然很长)示例。

示例代码创建两个数据集,数据一具有“键”变量 i、j、k,数据二具有键变量 j、k 和“值”变量 x。我想尽可能有效地合并这两个数据集。两个数据集都根据 j 和 k 建立了索引:不需要第一个数据的索引,但它仍然存在。

Proc SQL 不使用数据二中的索引,我想如果数据位于关系数据库中就会出现这种情况。这只是我必须接受的查询优化器的限制吗?

编辑:这个问题的答案是肯定的,SAS可以使用索引来优化PROC SQL连接。在以下示例中,数据集的相对大小很重要:如果修改代码以使数据二变得相对大于数据一,则将使用索引。数据集是否排序并不重要。

* Just to control the size of the data;
%let j_max=10000;

* Create data sets;
data one;
    do i=1 to 3;
        do j=1 to &j_max;
            do k=1 to 4;
                if ranuni(0)<0.9 then output;
            end;
        end;
    end;
run;

data two;
    do j=1 to &j_max;
        do k=1 to 4;
            x=ranuni(0);
            if ranuni(0)<0.9 then output;
        end;
    end;
run;

* Create indices;
proc datasets library=work nolist;
    modify one;
    index create idx_j_k=(j k);
    modify two;
    index create idx_j_k=(j k) / unique;
run;quit;

* Test the use of an index for the other data set:
* Log should display "INFO: Index idx_j_k selected for WHERE clause optimization.";
options msglevel=i;
data _null_;
    set two(where=(j<100));
run;

* Merge the data sets with proc sql - no index is used;
proc sql;
    create table onetwo as
    select
        one.*,
        two.x
    from one, two
    where
        one.j=two.j and
        one.k=two.k;
quit;

最佳答案

您可能正在比较苹果和橘子。对于使用 proc sql 进行的联接,索引可能没有帮助,因为观察值已经按 j 和 k 排序,并且有比使用索引更快的“合并”方法。

另一方面,对于使用 data _null_ 步骤进行的子集化,j 上的索引肯定会有所帮助。如果您对 proc sql 进行相同的子集设置,您将看到它正在使用索引。

proc sql;
  select * from two where j < 100;
quit;
/* on log
INFO: Index idx_j_k selected for WHERE clause optimization.
*/

顺便说一句,您可以使用未记录的 _method 选项来检查 proc sql 如何执行您的查询。在我的 Windows 上的 sas 9.2 上,它报告它正在执行所谓的“散列连接”:

proc sql _method;
  create table onetwo as
  select
    one.*,
    two.x
  from one, two
  where
    one.j=two.j and
    one.k=two.k;
quit;

/* on log
NOTE: SQL execution methods chosen are:

  sqxcrta
      sqxjhsh
          sqxsrc( WORK.ONE )
          sqxsrc( WORK.TWO )
*/

参见 Paul Kent 的 Tech note了解更多信息。

关于sql - SAS Proc SQL 合并时是否使用索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1553373/

相关文章:

python - 在 Python 中,如何用另一个列表索引一个列表?

Mongodb 查询不在带有文本字段的复合索引上使用前缀

sql - 错误 : operator does not exist: integer == integer

mysql - 在 vb.net 中将括号或引号保存到 sql 中

使用 ROWNUM 优化 Oracle 查询

performance - AQTime 性能分析器可以分析 vcl 源吗?

android - SQL - 使用子查询的结果

sql - Oracle Merge Into 的Using 子句?

c++ - 对于基本数据类型,按值传递还是按引用传递更好?

java - 将新的 Key 添加到 HashMap 的最后一个索引而不是第一个索引