sql - 随时间重复消除

标签 sql postgresql

我为我的智能家居创建了一个数据库,但我在编程过程中犯了一个错误:应用程序将内容两次发布到数据库中。我想删除所有包含重复项的行。对于重复,我的意思是一个元组,数据中的内容与同一类型的最后一个相同。我在这个例子中用“<<”标记重复项,请同时注意最后 3 行。我想保留第一个新数据,所以我想删除它们之后的所有重复数据。我仍然希望你能帮助我解决我的问题。

SmartHome=# select * from sensordata order by time desc Limit 21;
 type | data |            time
------+------+----------------------------
    8 | 2459 | 2019-08-09 23:10:39.530087 << 
    8 | 2459 | 2019-08-09 23:10:39.356908
    8 | 2445 | 2019-08-09 23:05:39.933269 <<
    8 | 2445 | 2019-08-09 23:05:39.789173
   10 | 6105 | 2019-08-09 22:50:50.40792  <<
   10 | 6105 | 2019-08-09 22:50:50.096132
    8 | 2459 | 2019-08-09 22:50:41.429681 <<
    8 | 2459 | 2019-08-09 22:50:41.357483
    8 | 2474 | 2019-08-09 22:45:42.13396  <<
    8 | 2474 | 2019-08-09 22:45:41.813046
   10 | 6221 | 2019-08-09 22:40:51.107709 <<
   10 | 6221 | 2019-08-09 22:40:51.076903
   10 | 6105 | 2019-08-09 22:35:51.737255 <<
   10 | 6105 | 2019-08-09 22:35:51.544886
   10 | 6221 | 2019-08-09 22:30:52.493895 <<
   10 | 6221 | 2019-08-09 22:30:51.795203
    8 | 2459 | 2019-08-09 22:30:43.193447 <<
    8 | 2459 | 2019-08-09 22:30:43.045599
   10 | 6105 | 2019-08-09 22:25:52.571793 << Duplicate like them above
   10 | 6105 | 2019-08-09 22:25:52.442844 << Also a Duplicate with much more
   10 | 6105 | 2019-08-09 22:20:51.356846    time between the rows
(21 rows)

SmartHome=# \d sensordata
                   Table "public.sensordata"
 Column |            Type             |       Modifiers
--------+-----------------------------+------------------------
 type   | integer                     | not null
 data   | character varying(20)       | not null
 time   | timestamp without time zone | not null default now()
Indexes:
    "smarthome_idx" UNIQUE, btree (type, "time")
Foreign-key constraints:
    "sensordata_type_fkey" FOREIGN KEY (type) REFERENCES sensortype(id)

如果我跑

with a as (Select *, row_number() over(partition by type,data order by time) from sensordata) select * from a where row_number=1 order by time desc;

输出是:

 10 | 17316 | 2019-08-09 09:43:46.938507 |          1
   10 | 18276 | 2019-08-09 09:38:47.129788 |          1
   10 | 18176 | 2019-08-09 09:33:47.889064 |          1
   10 | 17107 | 2019-08-08 10:36:11.383106 |          1
   10 | 17921 | 2019-08-08 09:56:15.889191 |          1
   10 | 17533 | 2019-08-03 09:30:11.047639 |          1

那不是我的意思:/(ß抱歉不知道如何以这种方式在评论中将这些东西标记为代码块

最佳答案

有很多方法可以做到这一点。最快的通常是相关子查询,但我永远记不起语法,所以我通常使用窗口函数,特别是 row_number()。

如果你跑

Select *, row_number() over(partition by type,data order by date) from sensor data

这应该给出您的表的一个版本,其中您要保留的所有行的编号为 1,重复项的编号为 2、3、4...在删除查询中使用相同的字段,您将被排序.

编辑:我现在明白您只想删除同一类型中连续出现的重复项。这也可以使用 row_number 和 join 来实现。此查询应该只为您提供所需的数据。

WITH s as (SELECT *,row_number() over(partition by type order by date) as rnum from sensordata)
SELECT a.* 
FROM s a 
JOIN s b 
ON a.rnum=b.rnum+1 AND a.type=b.type
WHERE NOT a.data=b.data

如果这很重要,这可能需要稍微调整以避免错过第一个条目。

关于sql - 随时间重复消除,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57437342/

相关文章:

sql - 具有重复参数的 PostgreSQL 函数

sql - 插入插入的id到另一个表

mysql - 为什么 "M"出现在Clojure MySQL查询结果中

mysql - INSERT 并检测唯一约束错误

php - Md5 mysql 行中的所有信息

postgresql - 您可能需要添加显式类型转换

postgresql - PGPoolingDataSource 不接受默认的自动提交

django - 如何 "reset"postgresql数据库?

django - 简单查询工作多年,然后突然变慢

sql - 如何在 Go 中快速获取多行?