sql - 在大表上使用 OFFSET 优化查询

我有 table

create table big_table (
id serial primary key,
-- other columns here
vote int
);

这个表很大，大概有7000万行，我要查询:

SELECT * FROM big_table
ORDER BY vote [ASC|DESC], id [ASC|DESC]
OFFSET x LIMIT n  -- I need this for pagination

您可能知道，当 x 是一个很大的数字时，这样的查询会非常慢。

为了性能优化我添加了索引:

create index vote_order_asc on big_table (vote asc, id asc);

和

create index vote_order_desc on big_table (vote desc, id desc);

EXPLAIN 表明上面的 SELECT 查询使用了这些索引，但是它的速度非常慢，偏移量很大。

如何优化大表中使用 OFFSET 的查询？也许 PostgreSQL 9.5 甚至更高版本有一些特性？我已经搜索过，但没有找到任何东西。

最佳答案

大OFFSET总是会很慢。 Postgres 必须对所有行进行排序并将可见行计数到您的偏移量。要直接跳过所有前面的行，您可以添加索引 row_number到表(或创建一个 MATERIALIZED VIEW 包括所述 row_number )并使用 WHERE row_number > x而不是 OFFSET x .

但是，此方法仅适用于只读(或大部分)数据。对可以并发更改的表数据实现相同的操作更具挑战性。您需要首先准确地定义所需的行为。

我建议采用不同的分页方法:

SELECT *
FROM   big_table
WHERE  (vote, id) > (vote_x, id_x)  -- ROW values
ORDER  BY vote, id  -- needs to be deterministic
LIMIT  n;

在哪里vote_x和 id_x来自上一页的最后行(对于DESC 和ASC)。如果向后导航，则从第一个开始。

您已有的索引支持比较行值 - 该功能符合 ISO SQL 标准，但并非每个 RDBMS 都支持它。

CREATE INDEX vote_order_asc ON big_table (vote, id);

或降序:

SELECT *
FROM   big_table
WHERE  (vote, id) < (vote_x, id_x)  -- ROW values
ORDER  BY vote DESC, id DESC
LIMIT  n;

可以使用相同的索引。
我建议你声明你的专栏 NOT NULL或熟悉 NULLS FIRST|LAST构造:

PostgreSQL sort by datetime asc, null first?

请特别注意两件事:

ROW WHERE 中的值子句不能替换为分隔的成员字段。 WHERE (vote, id) > (vote_x, id_x) 不能替换为:
```
<strike>WHERE  vote >= vote_x
AND    id   > id_x</strike>
```
这将排除所有行 id <= id_x ，而我们只想对同一次投票而不是下一次投票这样做。正确的翻译应该是:
```
WHERE (vote = vote_x AND id > id_x) OR vote > vote_x
```
...它不能很好地与索引一起使用，并且对于更多的列会变得越来越复杂。

显然，单个列会很简单。这就是我一开始提到的特殊情况。
该技术不适用于 ORDER BY 中的混合方向喜欢:
```
ORDER  BY vote ASC, id DESC
```
至少我想不出一种通用的方法来有效地实现它。如果两列中至少有一个是数字类型，则可以在 (vote, (id * -1)) 上使用具有倒排值的函数索引。 - 并在 ORDER BY 中使用相同的表达式:
```
ORDER  BY vote ASC, (id * -1) ASC
```

sql - 在大表上使用 OFFSET 优化查询

上一篇：sql - django.db.utils.IntegrityError : column "venue_city" contains null values 错误

下一篇：postgresql - Power BI Desktop 出现 Npgsql 3.0.3 错误