sql - 为什么 Oracle SQL 中的这个正则表达式会丢失字符串的开头?

标签 sql regex oracle split regexp-substr

我正在使用 p_delimeter 分割字符串 p_value,它可能包含一个或多个符号(这就是正则表达式不像经常使用的 [^,] +)。

在大多数情况下,以下查询可以正常工作,但我对以下情况感到茫然:

  1. 字符串p_value包含换行符chr(10)
  2. p_value 包含 p_delimeter 作为子字符串,

所以我希望得到一行包含整个 p_value 作为结果,但在换行后只得到剩余部分。

这里假设正则表达式将换行符视为普通符号,因为 对 regexp_substr 的调用中缺少 'm' 修饰符。

请解释一下这种行为是否正确以及如何获得预期结果。


WITH 
  params AS (SELECT 'ab' || chr(10) || 'cd' p_value,
                    'xxx' p_delimeter
               FROM dual
  )          
SELECT regexp_substr(p_value, '(.*?)(' || p_delimeter || '|$)', 1, level, 'c', 1) AS CUT
  FROM params
CONNECT BY regexp_substr(p_value, '(.*?)(' || p_delimeter || '|$)', 1, level, 'c', 1) IS NOT NULL;


Actual result:      Expected result:
-----               ------
 CUT                 CUT
-----               ------ 
 cd                  ab/cd 
                       ^
                       'this is just a marker for a line break [= chr(10)]'

最佳答案

通过将 n 标志添加到正则表达式,允许 . 模式匹配所有字符:

WITH params ( p_value, p_delimiter ) AS (
  SELECT 'ab' || chr(10) || 'cd', 'xxx' FROM dual
)          
SELECT REGEXP_SUBSTR(p_value, '(.*?)(' || p_delimeter || '|$)', 1, level, 'cn', 1) AS CUT
  FROM params
CONNECT BY LEVEL < REGEXP_COUNT( p_value, '(.*?)(' || p_delimeter || '|$)' );

或者您可以使用一个简单的函数:

Oracle 设置:

CREATE TYPE VARCHAR2_TABLE AS TABLE OF VARCHAR2(4000);
/

CREATE OR REPLACE FUNCTION split_String(
  i_str    IN  VARCHAR2,
  i_delim  IN  VARCHAR2 DEFAULT ','
) RETURN VARCHAR2_TABLE DETERMINISTIC
AS
  p_result       VARCHAR2_TABLE := VARCHAR2_TABLE();
  p_start        NUMBER(5) := 1;
  p_end          NUMBER(5);
  c_len CONSTANT NUMBER(5) := LENGTH( i_str );
  c_ld  CONSTANT NUMBER(5) := LENGTH( i_delim );
BEGIN
  IF c_len > 0 THEN
    p_end := INSTR( i_str, i_delim, p_start );
    WHILE p_end > 0 LOOP
      p_result.EXTEND;
      p_result( p_result.COUNT ) := SUBSTR( i_str, p_start, p_end - p_start );
      p_start := p_end + c_ld;
      p_end := INSTR( i_str, i_delim, p_start );
    END LOOP;
    IF p_start <= c_len + 1 THEN
      p_result.EXTEND;
      p_result( p_result.COUNT ) := SUBSTR( i_str, p_start, c_len - p_start + 1 );
    END IF;
  END IF;
  RETURN p_result;
END;
/

查询:

WITH params ( p_value, p_delimiter ) AS (
  SELECT 'ab' || chr(10) || 'cd', 'xxx' FROM dual
)          
SELECT COLUMN_VALUE AS CUT
FROM   params,
       TABLE( split_String( p_value, p_delimiter ) );

关于sql - 为什么 Oracle SQL 中的这个正则表达式会丢失字符串的开头?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35767793/

相关文章:

sql - 数据库批量更新

sql - 将Long转换为Varchar2

php - 分别从两个单独的 MySQL 表中删除信息?

正则表达式在 if 语句中匹配带空格的字符串(使用引号?)

java - RegEx 换行符遇到 StackOverflowError

Oracle:合并相当于插入所有?

sql - 在标签中显示具有相同值的行数

python - 写入 .CSV 文件时出现问题?

r - 使用 RODBC 连接到 Oracle 数据库时遇到问题

oracle - Oracle:如何减去两个日期并获得结果的分钟数