SQL 正则表达式 - 替换为另一个字段中的子字符串

标签 sql regex oracle regexp-replace regexp-substr

我有一个问卷反馈的数据库表(Oracle 11g),包括多项选择、多项回答问题。选项列包含用户可以选择的每个值,答案列包含他们选择的数值。

ID_NO     OPTIONS                               ANSWERS
1001      Apple Pie|Banana-Split|Cream Tea      1|2
1002      Apple Pie|Banana-Split|Cream Tea      2|3
1003      Apple Pie|Banana-Split|Cream Tea      1|2|3

我需要一个能够解码答案的查询,并将答案的文本版本作为单个字符串。

ID_NO     ANSWERS     ANSWER_DECODE
1001      1|2         Apple Pie|Banana-Split
1002      2|3         Banana-Split|Cream Tea
1003      1|2|3       Apple Pie|Banana-Split|Cream Tea

我尝试过使用正则表达式来替换值并获取子字符串,但我无法找到正确合并两者的方法。

WITH feedback AS (
  SELECT 1001 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '1|2' answers FROM DUAL UNION
  SELECT 1002 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '2|3' answers FROM DUAL UNION
  SELECT 1003 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '1|2|3' answers FROM DUAL )
SELECT 
  id_no,
  options,
  REGEXP_SUBSTR(options||'|', '(.)+?\|', 1, 2) second_option,
  answers,
  REGEXP_REPLACE(answers, '(\d)+', ' \1 ') answer_numbers,
  REGEXP_REPLACE(answers, '(\d)+', REGEXP_SUBSTR(options||'|', '(.)+?\|', 1, To_Number('2'))) "???"
FROM feedback

我不想手动定义或解码 SQL 中的答案;有许多调查都有不同的问题(以及不同数量的选项),所以我希望有一个解决方案能够动态地适用于所有这些问题。

我尝试按 LEVEL 将选项和答案拆分为单独的行,并在代码匹配的位置重新加入它们,但这对于实际数据集来说运行速度非常慢(一个包含 600 行响应的 5 个选项的问题) .

WITH feedback AS (
  SELECT 1001 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '1|2' answers FROM DUAL UNION
  SELECT 1002 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '2|3' answers FROM DUAL UNION
  SELECT 1003 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '1|2|3' answers FROM DUAL )
SELECT
    answer_rows.id_no,
    ListAgg(option_rows.answer) WITHIN GROUP(ORDER BY option_rows.lvl)
FROM
  (SELECT DISTINCT
    LEVEL lvl,
    REGEXP_SUBSTR(options||'|', '(.)+?\|', 1, LEVEL) answer
  FROM
    (SELECT DISTINCT
      options,
      REGEXP_COUNT(options||'|', '(.)+?\|') num_choices
    FROM
      feedback)
  CONNECT BY LEVEL <= num_choices
  ) option_rows
  LEFT OUTER JOIN
  (SELECT DISTINCT
    id_no,
    to_number(REGEXP_SUBSTR(answers, '(\d)+', 1, LEVEL)) answer
  FROM
    (SELECT DISTINCT
      id_no,
      answers,
      To_Number(REGEXP_SUBSTR(answers, '(\d)+$')) max_answer
    FROM
      feedback)
  WHERE
    to_number(REGEXP_SUBSTR(answers, '(\d)+', 1, LEVEL)) IS NOT NULL
  CONNECT BY LEVEL <= max_answer
  ) answer_rows
    ON option_rows.lvl = answer_rows.answer
GROUP BY
    answer_rows.id_no
ORDER BY
  answer_rows.id_no

如果没有仅使用正则表达式的解决方案,是否有比 LEVEL 更有效的方法来分割值?或者还有其他可行的方法吗?

最佳答案

速度很慢,因为你将每一行展开太多次;您使用的 connect-by 子句正在查找所有行,因此您最终会得到大量数据进行排序 - 这可能就是您最终得到 DISTINCT 的原因那里。

您可以向连接方式添加两个 PRIOR 子句,首先是为了保留 ID_NO,第二个是为了避免循环 - 任何非确定性函数都会为此,我选择了dbms_random.value,但如果您愿意,也可以使用sys_guid,或者其他。你也不需要很多子查询,你可以用两个来完成;或者作为 CTE,我认为它更清楚一点:

WITH feedback AS (
  SELECT 1001 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '1|2' answers FROM DUAL UNION
  SELECT 1002 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '2|3' answers FROM DUAL UNION
  SELECT 1003 id_no, 'Apple Pie|Banana-Split|Cream Tea' options, '1|2|3' answers FROM DUAL
),
option_rows AS (
  SELECT
    id_no,
    LEVEL answer,
    REGEXP_SUBSTR(options, '[^|]+', 1, LEVEL) answer_text
  FROM feedback
  CONNECT BY LEVEL <= REGEXP_COUNT(options, '[^|]+')
  AND id_no = PRIOR id_no
  AND PRIOR dbms_random.value IS NOT NULL
),
answer_rows AS (
  SELECT
    id_no,
    REGEXP_SUBSTR(answers, '[^|]+', 1, LEVEL) answer
  FROM feedback
  CONNECT BY LEVEL <= REGEXP_COUNT(answers, '[^|]+')
  AND PRIOR id_no = id_no
  AND PRIOR dbms_random.value IS NOT NULL
)
SELECT
  option_rows.id_no,
  LISTAGG(option_rows.answer, '|') WITHIN GROUP (ORDER BY option_rows.answer) AS answers,
  LISTAGG(option_rows.answer_text, '|') WITHIN GROUP (ORDER BY option_rows.answer) AS answer_decode
FROM option_rows
JOIN answer_rows
ON option_rows.id_no = answer_rows.id_no
AND option_rows.answer = answer_rows.answer
GROUP BY option_rows.id_no
ORDER BY option_rows.id_no;

哪个得到:

     ID_NO ANSWERS    ANSWER_DECODE                          
---------- ---------- ----------------------------------------
      1001 1|2        Apple Pie|Banana-Split                  
      1002 2|3        Banana-Split|Cream Tea                  
      1003 1|2|3      Apple Pie|Banana-Split|Cream Tea  

我还更改了您的正则表达式模式,因此您不必附加或删除 |

关于SQL 正则表达式 - 替换为另一个字段中的子字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34997694/

相关文章:

MySQL - 查询将整数按位字段拆分为每个位的 bool 列

javascript - 在javascript中用多个$符号替换字符串

regex - 为什么这些正则表达式匹配不一样?

mysql - 对于弱实体和它所依赖的强实体之间的关系我们能说什么呢?

php - Mysql 行返回数组中的最后一个值,但我期望整行

regex - crontab 中的 grep 无法正常工作

java - MyBatis 中选择时处理空值

Oracle 案例

sql - 两列中的 Oracle SQL 通用条目

mysql - SQL——使用嵌套子查询进行计数