我有一个 jsondata
列,其中有一个 jsonb
对象(不是数组)。此列包含许多字段,但每一行都有一个 message
字段。我想在此字段上执行 ~*
(或 FTS,如果可能的话)。
CREATE TABLE messages (
id bigint NOT NULL PRIMARY KEY GENERATED BY DEFAULT AS IDENTITY
(MAXVALUE 9223372036854775807),
"jsondata" jsonb
) WITH (
OIDS = FALSE
);
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, World"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "Hello, How r u"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "another message"}');
INSERT INTO messages (jsondata) VALUES ('{ "user": "user1", "message": "sample message"}');
select * from messages;
CREATE OR REPLACE FUNCTION jsonb_message_to_string( d jsonb, out string text )
AS $func$
BEGIN
SELECT INTO string
string_agg(d->>'message', ' ')
FROM jsonb_each(d);
RETURN;
END;
$func$ LANGUAGE plpgsql
IMMUTABLE;
CREATE AGGREGATE tsvector_agg (tsvector) (
SFUNC = tsvector_concat,
STYPE = tsvector
);
CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector( d jsonb, out tsv tsvector )
AS $func$
BEGIN
SELECT INTO tsv
tsvector_agg(to_tsvector(d->>'message'))
FROM jsonb_each(d);
RETURN;
END;
$func$ LANGUAGE plpgsql
IMMUTABLE;
CREATE INDEX ON messages
USING gin (jsonb_message_to_tsvector(jsondata));
我已经设法通过从其他答案中收集来做到这一点。现在,当我查询时:
SELECT jsonb_message_to_tsvector(jsondata) @@ 'another'
FROM messages;
我得到 4 行,每行都有 bool 值 f
。我在这里做错了什么?我如何在 jsonb
列中搜索消息。
?column?
f
f
f
f
我在网上找到的示例显示了元素数组。我的专栏是纯对象的。不包含数组。我正在使用 PostgreSQL 11。
查看演示:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=411fc432663f3ce16afb9ca62a69c5f0
最佳答案
您的函数并没有真正意义,因为它聚合了来自所有 行的消息。然后你在所有这些上创建一个 FTS 矢量。即使找到匹配项,您也不知道它属于哪一列。
您还使用该聚合使事情复杂化。您只需要一个不可变函数来为一行而不是所有行创建 tsvector。
CREATE OR REPLACE FUNCTION jsonb_message_to_tsvector(d jsonb)
returns tsvector
AS $func$
select to_tsvector(d->>'message');
$func$
LANGUAGE sql
IMMUTABLE;
然后可以创建如下索引:
CREATE INDEX ON messages
USING gin (jsonb_message_to_tsvector(jsondata));
并且 @@
运算符需要右侧的 tsquery
,而不是字符串值:
SELECT jsondata, jsonb_message_to_tsvector(jsondata) @@ to_tsquery('another') as is_contained
FROM messages;
返回:
jsondata | is_contained
------------------------------------------------+-------------
{"user": "user1", "message": "Hello, World"} | false
{"user": "user1", "message": "Hello, How r u"} | false
{"user": "user1", "message": "another message"} | true
{"user": "user1", "message": "sample message"} | false
DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=507bc5b88a9d8f4b5f0d978d664a4796
如果你知道唯一的语言是英语,你甚至不需要不可变函数,你可以直接从 json 列创建一个 tsvector:
CREATE INDEX ON messages
USING gin (to_tsvector('english', jsondata ->> 'message'));
SELECT to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another') as is_contained
FROM messages;
DbFiddle:https://dbfiddle.uk/?rdbms=postgres_11&fiddle=30a182a5b97cd24ebf45861440ff7c5b
如果您只想查看匹配项,请将条件移动到 where 子句:
SELECT *
FROM messages
where to_tsvector('english', jsondata ->> 'message') @@ to_tsquery('another')
关于sql - 无法在 jsonb 对象字段中搜索文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57470030/