mysql - 使用my sql随机选择独占记录

标签 mysql select

我有一个如下表A

id (integer)
follow_up (integer, days under observation)
matched_id (integer)


id   ; follow_up  ; matched_id
1    ; 10              ; 19
1    ; 10              ; 20
1    ; 10              ; 21
2    ; 5               ; 22
2    ; 5               ; 23
2    ; 5               ; 24
2    ; 5               ; 19
2    ; 5               ; 20
3    ; 6               ; 25
3    ; 6               ; 26
3    ; 6               ; 27
4    ; 7               ; 19
4    ; 7               ; 28
4    ; 7               ; 29

我想限制每个 id 最多 2 条记录,并且这些记录应该是随机选取的,并且对于每个 id 来说是唯一的。例如 匹配的id:“19”和“20”被赋予id:1,那么“19”和“20”不应该被赋予id:2 匹配的id:“19”被赋予id:1,那么“19”不应该被赋予id:4 表格的其余部分依此类推。

需要输出

id   ; follow_up  ; matched_id
1    ; 10              ; 19
1    ; 10              ; 20
2    ; 5               ; 22
2    ; 5               ; 23
3    ; 6               ; 25
3    ; 6               ; 26
4    ; 7               ; 28
4    ; 7               ; 29

请帮助我。非常感谢!

最佳答案

这是一个非常好的、非常具有挑战性的 SQL 问题。

您有一组非常具有挑战性的要求: 1.matched_id在结果集中不能出现多次 2. 所提供的 ID 不得超过两次 3. 匹配是随机的

我们将坚持使用纯 SQL 解决方案,假设您无法返回更大的结果集,并使用实现语言中的业务逻辑进行一些过滤。

首先,让我们解决随机分配问题。在组内随机排序项目是一个有趣的问题。我决定通过对行中数据的 SHA1 散列(id、follow_up、matched_id)进行排序来解决这个问题,这将给出具有随机性的可重复结果。 (如果有一列包含创建或修改的日期/时间,那就最好了。)

SELECT * FROM
(
  SELECT
    a.id,
    a.follow_up,
    a.matched_id,
    a.rank_hash,
    count(*) rank
  FROM
  (SELECT *, SHA1(CONCAT(id, follow_up, matched_id)) rank_hash FROM TableA) a
  JOIN 
  (SELECT *, SHA1(CONCAT(id, follow_up, matched_id)) rank_hash FROM TableA) b
  ON a.rank_hash >= b.rank_hash
  AND a.id = b.id
  GROUP BY a.id, a.matched_id
  ORDER BY a.id, rank
) groups
WHERE rank <= 2
GROUP BY matched_id

如果每个 id 有足够的 matches_id 值,这可能足以满足您的用例。但如果有第四个隐藏要求怎么办: 4. 如果可能,ID 应该收到匹配。

换句话说,如果随机改组的结果是,将 matches_id 分配给具有多个其他匹配项的 id,但在结果集的更深处,它是某个匹配项的唯一匹配项,该怎么办? ID?每个ID都与matched_id匹配的最佳解决方案是可能的,但它从未发生过,因为所有matched_id在该过程的早期都已用完?

例如:

CREATE TABLE TableA
    (`id` int, `follow_up` int, `matched_id` varchar(1))
;

INSERT INTO TableA
    (`id`, `follow_up`, `matched_id`)
VALUES
    (1, 10, 'A'),
    (1, 10, 'B'),
    (1, 10, 'C'),
    (2, 5, 'D'),
    (2, 5, 'E'),
    (2, 5, 'F'),
    (3, 5, 'C')
;

在上面的集合中,如果ID及其匹配是随机分配的,如果ID 1被分配matched_id C,那么ID 3将根本不会获得matched_id。

如果我们首先找出收到的 ID 有多少个匹配项,然后按该值排序会怎样?

SELECT 
  a.*,
  frequency
FROM TableA a
JOIN 
( SELECT
    matched_id,
    count(*) frequency
  FROM
    TableA
  GROUP BY matched_id
) b
ON a.matched_id = b.matched_id
GROUP BY a.matched_id
ORDER BY b.frequency

这是中间人编程语言可能派上用场的地方,可以帮助限制结果集。

但请注意,我们也失去了随机性的要求!正如您所看到的,纯 SQL 解决方案可能会变得非常丑陋。确实可以结合上述技术。

希望这能激发您的想象力。

关于mysql - 使用my sql随机选择独占记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39090880/

相关文章:

php - 如何保护项目中的数据库配置文件?

mysql - DECLARE CONTINUE HANDLER FOR NOT FOUND 不工作

php - 如何增强网站的安全性?

sql - SQL 语法中的 LAG 和 LEAD 替代方案

MySQL 按编号选择列。例如表 x 的前 3 列

mysql - 如何计算百分比?

mysql - 从一个表中选择查询以检查列中是否存在相同的值,mysql select query

mysql - 在不导出数据的情况下分隔mysql数据库中的数据

sqlite - 事件的android中的“NOT”子句?

javascript - 没有 "select"标签的 ComboBox 实现