MySQL大表两行时间戳差异

标签 mysql sql

我有一个包含超过 2,500,000 行和三列(相关)的 Transactions 表:id、company_id 和created_at。 id 标识交易,company_id 标识哪家公司收到交易,created_at 是交易执行时间的时间戳。

我想要的是获取给定公司的每对连续交易之间的差异列表。换句话说,如果我的 table 是:

 id | company_id | created_at
------------------------------
 01 |     ab     | 2016/01/02
 02 |     ab     | 2016/01/03
 03 |     cd     | 2016/01/03
 04 |     ab     | 2016/01/03
 05 |     cd     | 2016/01/04
 06 |     ab     | 2016/01/05

(请注意,给定公司的两个连续交易之间可能存在任意数量的其他公司的交易。)

然后我希望输出是:

 diff | company_id
-------------------
  01  |     ab
  00  |     ab
  01  |     cd
  02  |     ab

(我在几天内写下了created_at和diff值,但这只是为了便于可视化。)

我尝试使用this但速度太慢了。

--编辑:

“这个”是:

SELECT (B.created_at - A.created_at) AS diff, A.company_id
FROM Transactions A CROSS JOIN Transactions B
WHERE B.id IN (SELECT MIN (C.id) FROM Transactions C WHERE C.id > A.id AND C.company_id = A.company_id)
ORDER BY A.id ASC

最佳答案

为了得到像你所期望的结果,我有时会使用MySQL用户定义的变量,并让MySQL“按顺序”执行行的处理,这样我就可以比较当前的结果行更改为前一行的值。

为了使其有效运行,我们需要一个适当的索引,以避免昂贵的“使用文件排序”操作。 (我们需要按 company_id 顺序排列行,然后按 id 顺序排列,所以这些将是索引中的前两列。当我们这样做时,我们不妨包含 created_at 列并使其成为覆盖索引。

... ON Transactions (company_id, id, created_at)

然后我们可以尝试这样的查询:

SELECT t.diff
     , t.company_id
  FROM (
         SELECT IF(r.company_id = @pv_company_id, r.created_at - @pv_created_at, NULL) AS diff
              , IF(r.company_id = @pv_company_id, 1, 0) AS include_
              , @pv_company_id := r.company_id          AS company_id
              , @pv_created_at := r.created_at          AS created_at
           FROM (SELECT @pv_company_id := NULL, @pv_created_at := NULL) i
          CROSS
           JOIN Transactions r
          ORDER
             BY r.company_id
              , r.id
       ) t
 WHERE t.include_

MySQL 引用手册明确警告不要在语句中使用这样的用户定义变量。但我们在 MySQL 5.1 和 5.5 中观察到的行为是一致的。 (最大的问题是 MySQL 的某些 future 版本可能会使用不同的执行计划。)

别名为i的内联 View 只是为了初始化几个用户定义的变量。在运行查询之前,我们可以轻松地将其作为一个单独的步骤来完成。但我喜欢将初始化直接包含在语句本身中,因此不需要单独的 SELECT/SET 语句。

MySQL 访问 Transactions 表,并首先处理 ORDER BY,按 (company_id,id) 顺序对 Transactions 中的行进行排序。 (我们更喜欢通过索引来完成此操作,而不是通过昂贵的“使用文件排序”操作,这就是为什么我们希望定义该索引,并将 company_idid 作为领先的专栏。

“技巧”是将当前行的值保存到用户定义的变量中。处理下一行时,上一行的值可在用户定义的变量中使用,用于执行比较(当前行是否与上一行具有相同的 company_id?)和执行计算(created_at 两行的值。

根据减法运算的使用,我假设 created_at 列是整数/数字。也就是说,我假设 created_at 不是 DATEDATETIMETIMESTAMP 数据类型,因为我们不使用减法运算来查找差异。

SELECT a
     , b
     , a - b                  AS `subtraction`
     , DATEDIFF(a,b)          AS `datediff`
     , TIMESTAMPDIFF(DAY,b,a) AS `tsdiff`
  FROM ( SELECT DATE('2015-02-17') AS a
              , DATE('2015-01-16') AS b
       ) t

返回:

a           b           subtraction  datediff  tsdiff  
----------  ----------  -----------  --------  ------
2015-02-17  2015-01-16          101        32      32

(减法运算不会引发错误。但它返回的结果可能会出乎意料。在此示例中,它返回两个整数值 2015021720150116 之间的差>,这不是两个DATE表达式之间的天数。)

编辑

我注意到原始查询包含 ORDER BY。如果您需要以特定顺序返回行,则可以将该列包含在内联 View 查询中,并在外部查询上使用 ORDER BY

SELECT t.diff
     , t.company_id
  FROM (
         SELECT IF(r.company_id = @pv_company_id, r.created_at - @pv_created_at, NULL) AS diff
              , IF(r.company_id = @pv_company_id, 1, 0) AS include_
              , @pv_company_id := r.company_id          AS company_id
              , @pv_created_at := r.created_at          AS created_at
              , r.id                                    AS id
           FROM (SELECT @pv_company_id := NULL, @pv_created_at := NULL) i
          CROSS
           JOIN Transactions r
          ORDER
             BY r.company_id
              , r.id
       ) t
 WHERE t.include_
 ORDER BY t.id

抱歉,外部查询中的 ORDER BY 无法绕过“使用文件排序”。

关于MySQL大表两行时间戳差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35441722/

相关文章:

mysql - 在 MySQL 存储函数中对 CHAR 使用 Case 语句

mysql - 通过 shell 将 mysql 数据库结构复制到另一个数据库不起作用

mysql - 使用 str_to_date 未正确排序数据

mysql - mysql中同一行上的多个触发器操作

sql - 分组并且在理解上有困难

mysql - MySQL中如何将列名转移到结果集?

SQL Server : Order By 2 Columns (get ColumnX > Null First and then Id > Order By DESC)

python - 在 Python 中从数据库元组中获取项目

php - 在 URL 中使用连字符

php - 输出 2 列/2 行表 - PHP/MySQL - For 循环