mysql - 哪种连接可以合并单个 SQL 表中的记录?

标签 mysql sql

我需要查找并合并表中按时间相关的记录。该表记录了网站中的用户事件(事件开始和事件结束时间)。

我正在尝试将同一用户在一小时内进行的其他事件合并为一条记录。因此,如果一条记录的开始时间是同一用户上一次事件结束后 55 分钟,我会将其合并以形成一条记录。

我尝试了各种自连接来实现此目的,但结果从来都不是完美的。

分两步,我尝试了这个:

  1. 首先更新updated_at(事件结束),以便在一小时内的所有记录都具有共同的updated_at时间戳,这是该组中最新的。

  2. 删除组中所有较晚的记录,以便仅保留最早的记录,现在具有最早的created_at和最新的updated_at

-- 首先为一个用户的所有事件设置一个共同的结束时间 (updated_at),时间间隔不超过一个小时

UPDATE users_activity
SET updated_at = (SELECT a.LatestEnd  FROM (SELECT
    UA1.id,
    MAX(UA2.updated_at) AS LatestEnd
FROM users_activity UA1, users_activity UA2
    WHERE
    UA1.id <> UA2.id
        AND UA1.user_id = UA2.user_id
        AND UA1.created_at > DATE_SUB(UA2.updated_at,INTERVAL 1 HOUR)
        AND UA1.created_at < UA2.updated_at
        ) a)
WHERE
    users_activity.id IN (SELECT b.id  FROM (SELECT
    UA1.id
    FROM users_activity UA1, users_activity UA2
    WHERE
    UA1.id <> UA2.id
        AND UA1.user_id = UA2.user_id
        AND UA1.created_at > DATE_SUB(UA2.updated_at,INTERVAL 1 HOUR)
        AND UA1.created_at < UA2.updated_at
        ) b);
-- next delete all the later records in the group, leaving only the earliest
DELETE FROM users_activity 
WHERE
    users_activity.id IN (SELECT * FROM (SELECT d.id FROM users_activity d 
INNER JOIN
(SELECT
    COUNT(CONCAT(user_id,'_',updated_at)) AS Duplicates,
    CONCAT(user_id,'_',updated_at) AS UserVisitEnd,
    id,
    user_id,
    MAX(created_at) AS LatestStart
FROM users_activity
    GROUP BY UserVisitEnd
    HAVING Duplicates > 1) a on a.LatestStart = d.created_at AND a.user_id = d.user_id) as AllDupes);

如果数据是这样的:

|id  |user_id|created_at         |updated_at
|5788|1222   |2019-06-06 08:55:28|2019-06-06 09:30:41
|5787|3555   |2019-06-06 08:40:04|2019-06-06 11:07:21
|5786|1222   |2019-06-06 07:11:03|2019-06-06 08:01:29
|5785|7999   |2019-06-05 18:11:03|2019-05-01 18:17:44
|5784|3555   |2019-06-04 16:53:32|2019-06-04 16:58:19
|5783|9222   |2019-04-01 15:21:32|2019-04-01 16:53:32
|5782|1222   |2019-03-29 14:02:09|2019-03-29 15:51:07
|5774|1222   |2019-03-29 13:38:43|2019-03-29 13:50:43
|5773|7999   |2018-09-23 17:38:35|2018-09-23 17:40:35

我应该得到这个结果:

|id  |user_id|created_at         |updated_at
|5787|3555   |2019-06-06 08:40:04|2019-06-06 11:07:21
|5786|1222   |2019-06-06 07:11:03|2019-06-06 09:30:41
|5785|7999   |2019-06-05 18:11:03|2019-05-01 18:17:44
|5784|3555   |2019-06-04 16:53:32|2019-06-04 16:58:19
|5783|9222   |2019-04-01 15:21:32|2019-04-01 16:53:32
|5774|1222   |2019-03-29 13:38:43|2019-03-29 15:51:07
|5773|7999   |2018-09-23 17:38:35|2018-09-23 17:40:35

Example of data for merging

新信息。此查询将得到包含我需要的信息的结果:要更新和合并的 session ID。但是,当每行的更新可能会更改其他行所需的更新时,如何进行批量更新?

SELECT b.id, b.user_id, b.created_at, b.updated_at, b.UpdatedAtOfSessionToMerge, b.IDofSessionToMerge FROM (SELECT
UA1.id,
UA1.user_id,
UA1.created_at,
UA1.updated_at,
UA2.updated_at AS UpdatedAtOfSessionToMerge,
UA2.id AS IDofSessionToMerge
FROM users_activity UA1, users_activity UA2
WHERE
UA1.id <> UA2.id
    AND UA1.user_id = UA2.user_id
    AND UA1.created_at > DATE_SUB(UA2.updated_at,INTERVAL 1 HOUR)
    AND UA1.updated_at < UA2.updated_at
    AND UA1.created_at < UA2.updated_at
    ) b order by b.user_id;

最佳答案

SELECT min(ID) as ID, User_ID, Min(Created_At) Created_At, Max(Updated_At) as Updated_At
FROM Table
GROUP BY User_ID, DATE_FORMAT(Created_At, "%Y%m%d%H");

会很接近,但我不确定我是否按照您想要的方式处理“小时”汇总。

关于mysql - 哪种连接可以合并单个 SQL 表中的记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56482183/

相关文章:

mysql - 测试与 MySQL 服务器的连接

mysql - 查询以查找 SQL Server 的状态

php - CodeIgniter根据值统计mysql记录的活跃记录数

c# - 数据库查询中的存储过程与代码

sql - MySQL:按字段大小/长度排序

mysql - 我可以更改自己的 mysql 密码和 PMA 问题吗

mysql - 在 CentOS 7 上安装 MySql 失败

mysql - 为了从 MySQL 中提取表的较大子集,索引、表顺序如何影响查询速度?

mysql - SQL 排序,使得行仅在另一个列值相等的情况下排序

sql - 独特的航类组合与总乘客