postgresql - 如何强制 PostgreSQL 使用我的索引?

标签 postgresql indexing postgresql-performance

CREATE TABLE product (
  product_id     SERIAL,
  factory_key    VARCHAR(60),
  relevant       BOOLEAN
)
Indexes:
"product_factory_key_key" btree (factory_key);
"product_factory_key_relevant_key" btree (factory_key, relevant) WHERE relevant = false;
"product_relevant_key" btree (relevant);

事实:

  1. 我们在 product 表中有大约 1 亿条记录
  2. 有少量工厂。例如,1 个工厂可能有 500 万种产品。
  3. 有数百万个工厂 key
  4. 只有少数行与每​​个工厂无关。例如,有一家工厂有 500 万种产品,其中约有 100 种产品不相关。
  5. 但是,有数百万行不相关的行。因为,最常见的情况是一个工厂 key ,5 行产品,并且可能有 2 行不相关。

这是问题查询:

SELECT * FROM product WHERE factory_key='some_product_key' AND relevant=false LIMIT 10;

解释分析:

                                                        QUERY PLAN
---------------------------------------------------------------------------------------------------------------------------
 Limit  (cost=0.00..23.06 rows=10 width=188) (actual time=2709.654..32252.961 rows=10 loops=1)
   ->  Seq Scan on product  (cost=0.00..7366785.34 rows=3194759 width=188) (actual time=2709.634..32252.904 rows=10 loops=1)
         Filter: ((NOT relevant) AND ((product_key)::text = 'some_product_key'::text))
         Rows Removed by Filter: 449486
 Total runtime: 32253.150 ms
(5 rows)

问题:

这是有问题的,因为:

  1. 我相信计划者选择使用 seq 扫描是因为有太多的行与这个工厂相匹配。 (约 320 万行与该工厂匹配或约 3%)

  2. 但是,因为只有极少数行不相关。我正在寻找不相关的。 seq 扫描最终会非常昂贵。

我已经创建了一个复合索引 product_factory_key_relevant_key,但是它没有利用该索引。

编辑:

我试图强制 postgres 使用复合键:product_factory_key_relevant_key

SET enable_seqscan=off

虽然,它现在使用的是索引扫描。它实际上仍然比 seqscan 慢。 (所以我猜计划者在进行序列扫描时是正确的)

                                                                       QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost=0.57..34.03 rows=10 width=188) (actual time=8.088..469974.692 rows=10 loops=1)
   ->  Index Scan using product_factory_key_relevant_key on product  (cost=0.57..10689307.49 rows=3194776 width=188) (actual time=8.083..469974.655 rows=10 loops=1)
         Index Cond: (relevant = false)
         Filter: ((NOT relevant) AND ((product_key)::text = 'some_product_key'::text))
         Rows Removed by Filter: 2205295
 Total runtime: 469974.820 ms
(6 rows)

最佳答案

覆盖成本参数

你永远不能强制 PostgreSQL 使用特定的索引,或者完全阻止它进行 seqscan。

但是,您可以通过将相关的 enable_ 参数设置为 off 来告诉它尽可能避免执行某些扫描类型。这实际上是一个仅用于调试的功能。

为了测试,尝试:

SET enable_seqscan = off;

如果 Pg 可以使用索引扫描(或其他方式)它会。

您可能还想考虑:

SET random_page_cost = 1.1

即告诉 PostgreSQL 随机 I/O 只比顺序 I/O 稍微贵一点。这通常适用于具有 SSD 的系统,或者大多数数据库缓存在 RAM 中的系统。这种情况下选择索引的可能性会更大。

当然,如果您的系统的随机 I/O 实际上更昂贵,那么使用索引可能会更慢。

选择性,部分索引

您真正应该做的是遵循您已经获得的建议。按选择性顺序创建索引 - 如果 relevant 不太常见,请使用它。您甚至可以更进一步,创建一个部分索引:

CREATE INDEX idx_name_blah ON tbl_name_blah (factory_key) WHERE (NOT relevant);

此索引仅包含 relevant = 'f' 的值。它只能用于计划者知道相关的查询是错误的。另一方面,它将是一个更小、更快的索引。

统计

您的统计数据也可能不准确,导致 PostgreSQL 认为值频率与您的表的实际频率不同。 explain analyze 将有助于说明这一点。

您也可以只ANALYZE my_table 以防统计数据过时;如果是这样,请增加 autovacuum 运行的频率,因为它跟不上。

如果统计数据是最新的,但规划器仍在进行基于统计数据的错误估计,增加表的统计目标(参见手册)并重新分析可能会有所帮助,如果它实际上是一个统计错误估计问题.

版本

较旧的 PostgreSQL 版本在成本估算、查询优化、统计、查询执行方法以及几乎所有其他方面往往不够智能。

如果您使用的不是最新版本,请升级。

例如,9.2 的仅索引扫描将允许您创建部分索引

(product_id, factory_key) WHERE(不相关)

然后运行查询:

SELECT product_id, factory_key FROM my_table WHERE NOT relevant;

那应该只读取索引,根本没有堆访问。

关于postgresql - 如何强制 PostgreSQL 使用我的索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23166778/

相关文章:

php - 我可以在 Laravel5 上获取 pluck(lists) 的自定义日期格式吗?

sql - 如何为两个字段值选择相等数量的行?

postgresql - 与 postgres 一起安装 mit-scheme

sql - 在 postgres 中使用 json_agg 查询性能

postgresql - 返回 0 行时 GIN 索引不用于小表

sql - 重复使用插入的 ID

sql-server-2005 - SQL Server : how to write an alter index statement to add a column to the unique index?

sql - 在 postgres 中使用 LIMIT 时不使用索引

python - .loc 索引改变类型

sql - 优化 BETWEEN 日期语句