mysql - MYSQL数据千万以上，如何删除重复数据？

我抓取了很多数据，并将其保存到mysql表中，但是有一些重复的数据，我想以有效的方式删除它们。

表格 (ads_info)


+------------------+--------------+------+-----+---------+----------------+
| Field            | Type         | Null | Key | Default | Extra          |
+------------------+--------------+------+-----+---------+----------------+
| id               | int(11)      | NO   | PRI | NULL    | auto_increment |
| ad_id            | varchar(64)  | YES  | MUL | NULL    |                |
| adset_id         | varchar(64)  | YES  | MUL | NULL    |                |
| campaign_id      | varchar(64)  | YES  |     | NULL    |                |
| account_id       | varchar(64)  | YES  | MUL | NULL    |                |
| conversion_specs | text         | YES  |     | NULL    |                |
| creative         | text         | YES  |     | NULL    |                |
| effective_status | varchar(32)  | YES  |     | NULL    |                |
| status           | varchar(32)  | YES  |     | NULL    |                |
| name             | varchar(255) | YES  |     | NULL    |                |
| tracking_specs   | text         | YES  |     | NULL    |                |
| object_store_url | varchar(255) | YES  |     | NULL    |                |
| link             | varchar(255) | YES  |     | NULL    |                |
| object_type      | varchar(32)  | YES  |     | NULL    |                |
| updated_time     | timestamp    | YES  |     | NULL    |                |
| created_time     | timestamp    | YES  |     | NULL    |                |
+------------------+--------------+------+-----+---------+----------------+

显示创建表 ads_info


CREATE TABLE `ads_info` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `ad_id` varchar(64) DEFAULT NULL,
  `adset_id` varchar(64) DEFAULT NULL,
  `campaign_id` varchar(64) DEFAULT NULL,
  `account_id` varchar(64) DEFAULT NULL,
  `conversion_specs` text,
  `creative` text,
  `effective_status` varchar(32) DEFAULT NULL,
  `status` varchar(32) DEFAULT NULL,
  `name` varchar(255) DEFAULT NULL,
  `tracking_specs` text,
  `object_store_url` varchar(255) DEFAULT NULL,
  `link` varchar(255) DEFAULT NULL,
  `object_type` varchar(32) DEFAULT NULL,
  `updated_time` timestamp NULL DEFAULT NULL,
  `created_time` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `ad_id` (`ad_id`),
  KEY `adset_id` (`adset_id`),
  KEY `account_id` (`account_id`)
) ENGINE=InnoDB AUTO_INCREMENT=18827534 DEFAULT CHARSET=utf8mb4

表格中有超过千万条广告信息，其中大约有 40 条是重复的。我想删除所有重复的数据。

这是我糟糕的尝试

1)选择所有重复的ad_id

select ad_id  from ads_info group by ad_id having count(id) > 1;
#42387 rows in set (12.42 sec)

查询花费了12s，但我不知道如何进行优化。

2)使用子查询删除所有这些重复的数据。

delete  from ads_info where ad_id in ( select ad_id from (select ad_id from ads_info group by ad_id having count(id) > 1) t);

但是我这次尝试没有得到mysql的响应，它似乎是被查询挂起的。

如何删除这些重复的数据？

最佳答案

您首先需要一个UNIQUE key 。这将添加它和重复数据删除:

ALTER IGNORE TABLE ads_info
    ADD UNIQUE KEY(ad_id);

关于mysql - MYSQL数据千万以上，如何删除重复数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57535118/

mysql - MYSQL数据千万以上，如何删除重复数据？

上一篇：mysql - Laravel:仅向订阅者加载具有隐私的帖子

下一篇：mysql - 如何根据两个表中的多个值删除一个表的值