ruby-on-rails - 这是多列索引的合适场景吗?

标签 ruby-on-rails postgresql indexing multiple-columns

我的编程环境是 Rails 2.3 和 PostgreSQL 8(Heroku 上的共享数据库): 我读过这个 http://devcenter.heroku.com/articles/postgresql-indexes#multicolumn_indexes 在我开始以通用方式构建我的应用程序之前,以及 Internet 上的其他相关资源:

我的表有两列 A 和 B,并且都已编入索引。 (行在 (A,B) 对方面是唯一的) 但是在构建我的应用程序之后,我发现我只使用两种类型的调用来查询表: myTable.find_by_A_and_B(a,b) 和 myTable.find_by_A(a)

我们期望表中有 10000 多个条目,不同的 A 和不同的 B 的比例约为 3:1。我们期望对于 A 中的每个唯一值,B 中将有超过 1000 行具有不同的值;对于 B 中的每个唯一值,在 A 中具有不同值的行不会超过 300 行。

我的问题是:对于 myTable.find_by_A_and_B(a,b) 调用,当前的数据库设置(有两个单独的索引)是否可以归类为“高效”(因为我不知道 PostgreSQL 的内部工作原理) ).以及仅用 (A,B) 的一个多列索引替换两个索引是否会提供显着的速度提升?

谢谢。

附言作为对评论的回应,这里有更多信息: 根据此页面,http://devcenter.heroku.com/articles/database 它正在运行 PostgreSQL 8.3

下面是 myTable 的迁移模式:

create_table :myTable do |t|
    t.string :b
    t.integer:a
    t.boolean :c, :default => false
end

add_index :mytable, :b 
add_index :mytable, :a

最佳答案

在最新版本的 PostgreSQL 中 multi-column indexes可以有效地用于过滤其中一列。这在第一列上效果最好,但对其他列也相当不错。

此外,10.000 行对于 PostgreSQL 来说是小菜一碟。具有数百万行的表并不少见。

假设我们讨论整数 (int4) 列上的 btree 索引(默认)...
... 答案 是:只需在(a,b) 上使用一个多列索引| .

由于 page layout在磁盘上(类似于表和索引),每个索引行有相当多的开销。此外,由于数据对齐限制,一个索引 (a,b)将使用与 (a) 上的索引完全相同的磁盘空间量- 在带有 MAXALIGN 的机器上= 8 字节(大多数 64 位操作系统)。
因此,特别是如果您有大量写入或磁盘空间和/或 RAM 有限,最好的办法是只在 (a,b) 上使用一个多列索引。 .在大量写入的表上维护索引也会带来相当大的成本。

针对问题的更新进行编辑:

  • a正在integer ,我的回答基本有效。 (a,b)上的索引将是您需要的全部或大部分内容。

  • 去掉 b 上的单独索引 因为您显然没有关于 b 的查询.

  • 作为btext ,(a,b) 上的多列索引不能像上面描述的那样从数据对齐中获益,但仍然如此。 b的媒体长度越大,您从 a 的附加索引中获利的可能性就越大.带短b它可能不支付。否则我希望它能加速 myTable.find_by_A(a)一点点。

  • 这可能比 a 上的两个独立索引更快和 b , 但幅度不大,因为 Postgres 可以在 bitmap index scan 中组合两个索引.自 v.8.3 以来,这已得到改进。

  • 请注意 btree 索引在 text 上仅帮助带有“=”的查询(如果您在 C 语言环境中运行则更多)。阅读有关 operator classes 的手册.

你不必相信我的话,使用 EXPLAIN ANALYZE 运行一些测试.它非常简单且信息丰富,为 10.000 行创建索引只需一秒钟左右。重复每个查询几次以填充缓存并获得可比较的结果。

关于ruby-on-rails - 这是多列索引的合适场景吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7543726/

相关文章:

ruby-on-rails - 未定义方法 `update' 为 nil :NilClass

C# Excel 互操作 : Exception from HRESULT (DISP_E_BADINDEX)

mysql - 如果MySQL的InnoDB PRIMARY列自动建立索引,为什么索引长度报告为零?

sql - 使用 postgres 进行幂等插入

int类型列上的mysql索引

ruby-on-rails - Rails 3 Engine - 使用主应用程序中的模型?

ruby-on-rails - 是否可以撤消 rake db 回滚?

javascript - 从 JavaScript 向 MariaDB 发送数据时保持毫秒精度

php - Postgres 查询未执行

PostgreSQL:为什么 random() 在连接中不起作用?