mysql - 使用my sql随机选择独占记录

我有一个如下表A

id (integer)
follow_up (integer, days under observation)
matched_id (integer)


id   ; follow_up  ; matched_id
1    ; 10              ; 19
1    ; 10              ; 20
1    ; 10              ; 21
2    ; 5               ; 22
2    ; 5               ; 23
2    ; 5               ; 24
2    ; 5               ; 19
2    ; 5               ; 20
3    ; 6               ; 25
3    ; 6               ; 26
3    ; 6               ; 27
4    ; 7               ; 19
4    ; 7               ; 28
4    ; 7               ; 29

我想限制每个 id 最多 2 条记录，并且这些记录应该是随机选取的，并且对于每个 id 来说是唯一的。例如匹配的id:“19”和“20”被赋予id:1，那么“19”和“20”不应该被赋予id:2 匹配的id:“19”被赋予id:1，那么“19”不应该被赋予id:4 表格的其余部分依此类推。

需要输出

id   ; follow_up  ; matched_id
1    ; 10              ; 19
1    ; 10              ; 20
2    ; 5               ; 22
2    ; 5               ; 23
3    ; 6               ; 25
3    ; 6               ; 26
4    ; 7               ; 28
4    ; 7               ; 29

请帮助我。非常感谢!

最佳答案

这是一个非常好的、非常具有挑战性的 SQL 问题。

您有一组非常具有挑战性的要求: 1.matched_id在结果集中不能出现多次 2. 所提供的 ID 不得超过两次 3. 匹配是随机的

我们将坚持使用纯 SQL 解决方案，假设您无法返回更大的结果集，并使用实现语言中的业务逻辑进行一些过滤。

首先，让我们解决随机分配问题。在组内随机排序项目是一个有趣的问题。我决定通过对行中数据的 SHA1 散列(id、follow_up、matched_id)进行排序来解决这个问题，这将给出具有随机性的可重复结果。 (如果有一列包含创建或修改的日期/时间，那就最好了。)

SELECT * FROM
(
  SELECT
    a.id,
    a.follow_up,
    a.matched_id,
    a.rank_hash,
    count(*) rank
  FROM
  (SELECT *, SHA1(CONCAT(id, follow_up, matched_id)) rank_hash FROM TableA) a
  JOIN 
  (SELECT *, SHA1(CONCAT(id, follow_up, matched_id)) rank_hash FROM TableA) b
  ON a.rank_hash >= b.rank_hash
  AND a.id = b.id
  GROUP BY a.id, a.matched_id
  ORDER BY a.id, rank
) groups
WHERE rank <= 2
GROUP BY matched_id

如果每个 id 有足够的 matches_id 值，这可能足以满足您的用例。但如果有第四个隐藏要求怎么办: 4. 如果可能，ID 应该收到匹配。

换句话说，如果随机改组的结果是，将 matches_id 分配给具有多个其他匹配项的 id，但在结果集的更深处，它是某个匹配项的唯一匹配项，该怎么办？ ID？每个ID都与matched_id匹配的最佳解决方案是可能的，但它从未发生过，因为所有matched_id在该过程的早期都已用完？

例如:

CREATE TABLE TableA
    (`id` int, `follow_up` int, `matched_id` varchar(1))
;

INSERT INTO TableA
    (`id`, `follow_up`, `matched_id`)
VALUES
    (1, 10, 'A'),
    (1, 10, 'B'),
    (1, 10, 'C'),
    (2, 5, 'D'),
    (2, 5, 'E'),
    (2, 5, 'F'),
    (3, 5, 'C')
;

在上面的集合中，如果ID及其匹配是随机分配的，如果ID 1被分配matched_id C，那么ID 3将根本不会获得matched_id。

如果我们首先找出收到的 ID 有多少个匹配项，然后按该值排序会怎样？

SELECT 
  a.*,
  frequency
FROM TableA a
JOIN 
( SELECT
    matched_id,
    count(*) frequency
  FROM
    TableA
  GROUP BY matched_id
) b
ON a.matched_id = b.matched_id
GROUP BY a.matched_id
ORDER BY b.frequency

这是中间人编程语言可能派上用场的地方，可以帮助限制结果集。

但请注意，我们也失去了随机性的要求!正如您所看到的，纯 SQL 解决方案可能会变得非常丑陋。确实可以结合上述技术。

希望这能激发您的想象力。

关于mysql - 使用my sql随机选择独占记录，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39090880/

mysql - 使用my sql随机选择独占记录

上一篇：mysql - 从 2 个不同的表中选择计数，无需在子选择中进行子选择

下一篇：java - JDBC:共享连接或使用连接池