php - 如何通过单个查询从带有 where 过滤器的 30k MySQL 表中快速选择 3 条随机记录?

标签 php mysql performance random

嗯,这是一个非常古老的问题,从未得到真正的解决方案。我们想要一个包含大约 30k 条记录的表中的 3 个随机行。从 MySQL 的角度来看,这张表并没有那么大,但如果它代表一个商店的产品,它就具有代表性。例如,当一个人在网页中呈现 3 个随机产品时,随机选择很有用。我们想要一个满足这些条件的单一 SQL 字符串解决方案:

  1. 在 PHP 中,PDO 或 MySQLi 的记录集必须正好有 3 行。
  2. 它们必须通过不使用存储过程的单个 MySQL 查询获得。
  3. 解决方案必须快速,例如繁忙的 apache2 服务器,MySQL 查询在许多情况下是瓶颈。所以它必须避免创建临时表等。
  4. 这 3 条记录不得连续,即它们不得彼此相邻。

该表有以下字段:

CREATE TABLE Products (
  ID INT(8) NOT NULL AUTO_INCREMENT,
  Name VARCHAR(255) default NULL,
  HasImages INT default 0,
  ...
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

WHERE 约束是 Products.HasImages=1 允许仅获取具有可在网页上显示的图像的记录。大约三分之一的记录满足 HasImages=1 的条件。

寻找完美,我们先抛开现有的存在缺陷的解决方案:


我。 This basic solution使用 ORDER BY RAND(),

太慢了,但保证每次查询都有 3 个真正随机的记录:

SELECT ID, Name FROM Products WHERE HasImages=1 ORDER BY RAND() LIMIT 3;

*CPU大约0.10s,扫描9690行因为WHERE子句,使用where; 使用临时;在 Debian Squeeze 双核 Linux 机器上使用文件排序,还不错,但是

不能像使用临时表和文件排序那样扩展到更大的表,并且在测试 Windows7::MySQL 系统上进行第一次查询需要 8.52 秒。这么差的性能,要避免一个网页不是吗?


二。 riedsio的亮解使用 JOIN ... RAND(),

来自 MySQL select 10 random rows from 600K rows fast ,此处改编仅对单个随机记录有效,因为以下查询几乎总是连续记录。实际上,它只获得了 ID 中 3 条连续记录的随机集:

SELECT Products.ID, Products.Name
FROM Products
INNER JOIN (SELECT (RAND() * (SELECT MAX(ID) FROM Products)) AS ID)
  AS t ON Products.ID >= t.ID
WHERE (Products.HasImages=1)
ORDER BY Products.ID ASC
LIMIT 3;

*CPU大约0.01-0.19s,随机扫描3200、9690、12000行左右,但大多是9690条记录,使用where。


三。最好的解决方案似乎是 WHERE ... RAND(),

见于 MySQL select 10 random rows from 600K rows fastbernardo-siu 提议:

SELECT Products.ID, Products.Name FROM Products
WHERE ((Products.Hasimages=1) AND RAND() < 16 * 3/30000) LIMIT 3;

*CPU 大约 0.01 - 0.03s,扫描 9690 行,使用 where。

这里3是希望的行数,30000是表Products的RecordCount,16是放大选择的实验系数,以保证3条记录的选择。我不知道在什么基础上,因子 16 是可接受的近似值。

我们在大多数情况下得到 3 条随机记录,而且速度非常快,但这并不保证:有时查询只返回 2 行,有时甚至根本没有记录。

以上三种方法扫描满足WHERE子句的表的所有记录,这里是9690行。

更好的 SQL 字符串?

最佳答案

丑陋,但又快又随意。很快就会变得非常难看,尤其是在下面描述的调整中,所以请确保你真的想要这样。

(SELECT Products.ID, Products.Name
FROM Products
    INNER JOIN (SELECT RAND()*(SELECT MAX(ID) FROM Products) AS ID) AS t ON Products.ID >= t.ID
WHERE Products.HasImages=1
ORDER BY Products.ID
LIMIT 1)

UNION ALL

(SELECT Products.ID, Products.Name
FROM Products
    INNER JOIN (SELECT RAND()*(SELECT MAX(ID) FROM Products) AS ID) AS t ON Products.ID >= t.ID
WHERE Products.HasImages=1
ORDER BY Products.ID
LIMIT 1)

UNION ALL

(SELECT Products.ID, Products.Name
FROM Products
    INNER JOIN (SELECT RAND()*(SELECT MAX(ID) FROM Products) AS ID) AS t ON Products.ID >= t.ID
WHERE Products.HasImages=1
ORDER BY Products.ID
LIMIT 1)

第一行出现的频率超出预期

如果您的表中的 ID 之间有很大的差距,那么紧随这些差距之后的行将有更大的机会被此查询获取。在某些情况下,它们出现的频率会明显高于应有的频率。这通常无法解决,但有一个针对常见特殊情况的修复:当 0 和表中的第一个现有 ID 之间存在间隙时。

代替子查询 (SELECT RAND()*<max_id> AS ID)使用类似 (SELECT <min_id> + RAND()*(<max_id> - <min_id>) AS ID)

删除重复项

如果按原样使用,查询可能会返回重复的行。使用 UNION 可以避免这种情况。而不是 UNION ALL .这种方式将合并重复项,但查询不再保证准确返回 3 行。您也可以通过获取比您需要的更多的行并像这样限制外部结果来解决这个问题:

(SELECT ... LIMIT 1)
UNION (SELECT ... LIMIT 1)
UNION (SELECT ... LIMIT 1)
...
UNION (SELECT ... LIMIT 1)
LIMIT 3

但仍然不能保证会提取 3 行。它只是让它更有可能。

关于php - 如何通过单个查询从带有 where 过滤器的 30k MySQL 表中快速选择 3 条随机记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18943417/

相关文章:

python - 加载 CSV 值,然后在 mysql 数据库中搜索匹配项,然后应用插入?

c - 如何在 Linux 中使用微状态记账?

php - Phing 看不到 PHPUnit

php - 如何在结果前显示php搜索引擎执行时间和结果数

mysql - 在一列上不同但检索所有列

ios - 提高透明图像绘制性能

c++ - 为什么我的 C++ 并行程序在 MPI_Gather 中出现 MPI fatal error ?

php mysqli 函数坚持可选参数

php - 如何在 CanvasJS 图表中显示格式化的日期时间?

mysql - Unix Shell 脚本 : Reading and working with MySQL Rows line by line