mysql - 使用 NOT IN 查询是否比使用 IN 查询更快?

标签 mysql performance

让我们假设以下简单情况:

我有两个表,一个包含两个字段的category表:CategoryIdCategoryGroup,以及一个ads 表,其中包含另外两个字段:AdIdcategory_CategoryId(指向 category 表的链接)。

类别表中的所有行都分为两个单独的组:购买租赁。因此,该表中的每一行在 CategoryGroup 中都有字符串 buy 或字符串 rent

假设我想计算待售的广告中有多少个广告。

我有两种方法可以做到这一点:

  1. 执行如下所示的 NOT IN 查询:SELECT COUNT(AdId) as Total FROM ads WHERE Category_CategoryId NOT IN (SELECT CategoryId FROM Category WHERE CategoryGroup = 'rent')

  2. 或者执行如下“IN”查询:SELECT COUNT(AdId) as Total FROM ads WHERE Category_CategoryId IN (SELECT CategoryId FROM Category WHERE CategoryGroup = 'buy')

我测试了这两个查询,在我看来,NOT IN 查询的执行速度比 IN 类型的查询快得多。

(在约 900.000 行、大约 45 个类别的表上,NOT IN 需要 0.45 秒,而在同一数据集上,IN 需要 1.1 秒)

这是偶然的,还是 NOT IN 查询在类似情况下总是执行得更快?

最佳答案

IN ( SELECT ... )NOT IN ( SELECT ... ) 或许永远都不是最有效的编码方式。其中一个可能比另一个更快,因为 SELECT 的行数比另一个少,而不是因为 NOT

假设广告仅属于一个类别,这可能是最有效的。

SELECT  Count(ads.AdId) as Total, ads.CategoryId
    FROM  ads
    JOIN  category AS c ON c.CategoryId = ads.CategoryId
    WHERE  c.CategoryGroup = 'buy'
    GROUP BY  ads.CategoryId 

如果一个广告可以属于多个类别,那么您就会遇到一个难题:既是“购买”又是“租赁”的广告应该包含在计数中还是排除在外?无论如何,我准备将 IN 替换为 EXISTS 作为替代优化:

SELECT  Count(AdId) as Total, CategoryId
    FROM  ads
    WHERE  EXISTS 
      ( SELECT  *
            FROM  category
            WHERE  CategoryId = ads.CategoryId
              AND  CategoryGroup = 'buy' 
      )
    GROUP BY  CategoryId 

(抱歉,我无法忍受不必要的冗余列名称,例如 category_CategoryId。)

对各种选择执行EXPLAIN SELECT ...以获得更多洞察。

关于mysql - 使用 NOT IN 查询是否比使用 IN 查询更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35037413/

相关文章:

php - 无法运行查询 : SQLSTATE[HY093]: Invalid parameter number: number of bound variables does not match number of tokens

mysql - 为什么 mysql 在可用时不使用索引

performance - 嵌套 ng-repeat 性能

c++ - 我现在应该按值(value)传递吗?

java - 是什么导致了这种性能下降?

mysql - EcliplseLink2.1.2中涉及一对多和多对一关系的外键约束问题

MySQL 根据 ENUM 值进行选择

mysql - Django IntegrityError 外键重复条目

sql - 为什么将 SQL 查询包装在 if 语句中会显着增加其运行时间?

performance - 是什么导致了这个微不足道的 Fortran 代码的运行时差异?