sql - 无法在 jsonb 对象字段中搜索文本

标签 sql postgresql jsonb

我有一个 jsondata 列,其中有一个 jsonb 对象(不是数组)。此列包含许多字段,但每一行都有一个 message 字段。我想在此字段上执行 ~*(或 FTS,如果可能的话)。

CREATE TABLE messages (
  id                bigint NOT NULL PRIMARY KEY GENERATED BY DEFAULT AS IDENTITY
    (MAXVALUE 9223372036854775807),
  "jsondata"         jsonb

) WITH (
    OIDS = FALSE
  );

INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, World"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, How r u"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "another message"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "sample message"}');


select * from messages;

CREATE OR REPLACE FUNCTION jsonb_message_to_string( d jsonb, out string text )
          AS $func$
            BEGIN
              SELECT INTO string
                string_agg(d->>'message', ' ')
              FROM jsonb_each(d);
              RETURN;
            END;
          $func$ LANGUAGE plpgsql
          IMMUTABLE;


          CREATE AGGREGATE tsvector_agg (tsvector) (
      SFUNC = tsvector_concat,
      STYPE = tsvector
    );

CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector( d jsonb, out tsv tsvector )
    AS $func$
      BEGIN
        SELECT INTO tsv
          tsvector_agg(to_tsvector(d->>'message'))
          FROM jsonb_each(d);
        RETURN;
      END;
    $func$ LANGUAGE plpgsql
    IMMUTABLE;

CREATE INDEX ON messages
          USING gin (jsonb_message_to_tsvector(jsondata));

我已经设法通过从其他答案中收集来做到这一点。现在,当我查询时:

SELECT jsonb_message_to_tsvector(jsondata) @@ 'another'
FROM messages;

我得到 4 行,每行都有 bool 值 f。我在这里做错了什么?我如何在 jsonb 列中搜索消息。

?column?
f
f
f
f

我在网上找到的示例显示了元素数组。我的专栏是纯对象的。不包含数组。我正在使用 PostgreSQL 11。

查看演示:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=411fc432663f3ce16afb9ca62a69c5f0

最佳答案

您的函数并没有真正意义,因为它聚合了来自所有 行的消息。然后你在所有这些上创建一个 FTS 矢量。即使找到匹配项,您也不知道它属于哪一列。

您还使用该聚合使事情复杂化。您只需要一个不可变函数来为一行而不是所有行创建 tsvector。

CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector(d jsonb)
  returns tsvector
AS $func$
  select to_tsvector(d->>'message');
$func$ 
LANGUAGE sql
IMMUTABLE;

然后可以创建如下索引:

CREATE INDEX ON messages
  USING gin (jsonb_message_to_tsvector(jsondata));

并且 @@ 运算符需要右侧的 tsquery,而不是字符串值:

SELECT jsondata, jsonb_message_to_tsvector(jsondata) @@ to_tsquery('another') as is_contained
FROM messages;

返回:

jsondata                                        | is_contained
------------------------------------------------+-------------
{"user": "user1", "message": "Hello, World"}    | false       
{"user": "user1", "message": "Hello, How r u"}  | false       
{"user": "user1", "message": "another message"} | true        
{"user": "user1", "message": "sample message"}  | false       

DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=507bc5b88a9d8f4b5f0d978d664a4796


如果你知道唯一的语言是英语,你甚至不需要不可变函数,你可以直接从 json 列创建一个 tsvector:

CREATE INDEX ON messages
  USING gin (to_tsvector('english', jsondata ->> 'message'));

SELECT to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another') as is_contained
FROM messages;

DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=30a182a5b97cd24ebf45861440ff7c5b


如果您只想查看匹配项,请将条件移动到 where 子句:

SELECT *
FROM messages
where to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another')

关于sql - 无法在 jsonb 对象字段中搜索文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57470030/

相关文章:

sql - MS Access SQL,没有数字字段的 Rnd 函数

mysql - 在查询中将java时间转换为sqldate

postgresql - 如何将新 token 添加到 PostgreSQL 中?

sql - postgresql查询 "\dp"怎么办?

c# - 填充空数据表会出现 SQL 异常 "Invalid Column Name"——这没有意义?

mysql - 左连接复制并计算所有行

Python 和 Postgres : would psycopg2. 连接锁定表?

string - 与 JSONB 相关的 PostgreSQL Hibernate-types 数据转换错误

database - jsonb_set 在过程中传递变量值而不是静态

ruby-on-rails - Rails 中的 JSONB 查询包含哈希数组的键