sql - PostgreSQL 和 regexp_split_to_array + unnest

标签 sql regex postgresql postgresql-9.1 crosstab

我有那种绳子

Test 1|new york| X, Test 2| chicago|Y, Test 3| harrisburg, pa| Z

我要求的结果是

 Column1  Column 2     Column3
 Test 1   new york        X
 Test 2   chicago         Y
 Test 3   harrisburg,pa   Z

但是运行这个查询

SELECT  
split_part(stat.st, '|', 1) Column1,
split_part(stat.st, '|', 2) Column2,    
split_part(stat.st, '|', 3) Column3
FROM
(
    SELECT
            UNNEST (
                string_to_array('Test 1|new york| X, Test 2| chicago|Y, Test 3| harrisburg, pa| Z',',')
            )
         AS st
) stat;

结果是

 Column1  Column 2   Column3
 Test 1   new york      X
 Test 2   chicago       Y
 Test 3   harrisburg    
 pa          Z  

Column3 可以是所有内容(| 除外)。匹配它的可能模式。这可以重复 N 次。 STRING 可以是所有内容,除了 |字符。

如何使用 regexp_split_to_array() 得到我想要的结果集?

最佳答案

几乎没有足够的信息来完成这项工作。但这可以完成工作:

SELECT * FROM crosstab3(
   $$
   SELECT (rn/3)::text AS x, (rn%3)::text, item
   FROM  (
      SELECT row_number() OVER () - 1 AS rn, trim(item) AS item
      FROM (
         SELECT CASE WHEN rn%2 = 1 THEN regexp_split_to_table(item, ',') 
                     ELSE item END AS item
         FROM  (
            SELECT row_number() OVER () AS rn, *
            FROM regexp_split_to_table('Test 1|new york| X, Test 2| chicago|Y, Test 3| harrisburg, pa| Z', '\|') AS item
            ) x
         ) y
      ) z
   $$)

返回:

 row_name | category_1 |   category_2   | category_3
----------+------------+----------------+------------
 0        | Test 1     | new york       | X
 1        | Test 2     | chicago        | Y
 2        | Test 3     | harrisburg, pa | Z

| 处拆分字符串后,我建立的标准是只有 行号不均匀 的行才应在 , 处拆分。< br/> 我 trim() 结果并添加另一个 row_number() 的导数以在进行交叉制表之前到达此中间状态:

 x | text |      item
---+------+----------------
 0 | 0    | Test 1
 0 | 1    | new york
 0 | 2    | X
 1 | 0    | Test 2
 1 | 1    | chicago
 1 | 2    | Y
 2 | 0    | Test 3
 2 | 1    | harrisburg, pa
 2 | 2    | Z

最后,我应用了 tablefunc 中的 crosstab3() 函数模块。要安装它,如果您还没有:

CREATE EXTENSION tablefunc;

使用 regexp_replace() 进行预处理

这是一个可能更容易理解的替代方法。不确定哪个更快。复杂的正则表达式往往很昂贵:

SELECT trim(split_part(a,'|', 1)) AS column1
      ,trim(split_part(a,'|', 2)) AS column2
      ,trim(split_part(a,'|', 3)) AS column3
FROM  (
   SELECT unnest(
             string_to_array(
                         regexp_replace('Test 1|new york| X, Test 2| chicago|Y, Test 3| harrisburg, pa| Z'
                        ,'([^|]*\|[^|]*\|[^,]*),', '\1~^~', 'g'), '~^~')) AS a
   ) sub

在继续之前,这个仅在两个管道 (|) 之后替换逗号 (,)。
现在使用 * 而不是 + 以允许管道之间的空字符串。

关于sql - PostgreSQL 和 regexp_split_to_array + unnest,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15663330/

相关文章:

regex - python regex 如何避免匹配多个分号?

sql - 将 "summed up flags"转换回原来的含义

postgresql - 将线串转换为点数组?

mysql - 在 PostgreSQL 或 MySQL 中是否存在反向 "AUTO_INCREMENT"的现存实现?

sql - 选择不同的组合

c# - 在 MySql (PhpMyadmin) 中根据条件将数据插入字段中

javascript - 如何分割两个或多个地址

regex - 仅当文本包含白名单中的所有单词,但不包含黑名单中的所有单词时才匹配文本

sql - 在 INSERT SELECT 语句期间生成增量数字列值

mysql - 如何在现有列中添加前导零?