我遇到了一个非常奇怪的问题,即 Oracle 12c 不像 Oracle 11g 那样管理 2 字节字符,导致 LPAD 等某些功能出现问题。
我们有两个数据库,一个 11g 和一个 12c,具有相同的 NLS 参数,但是 11g 在 LPAD 等函数中将西里尔字符管理为 1 个字节,而 12c 将它们管理为 2 个字节,这会导致问题:如果我们需要某个值为 40 个字符长,其中的每个西里尔字符在填充时将计为 2 个字节,但将显示为 1 个字符,这意味着 5 个西里尔字符被 LPADded 为 40 实际上将生成一个长度为 35 的值。
此行为在 Oracle 官方文档 ( https://docs.oracle.com/database/121/SQLRF/functions107.htm#SQLRF00663 ) 中有所描述,但几个版本(包括 11g)都是如此,所以我不清楚为什么这两个版本在相同设置下应该有不同的行为,并且以防万一,如何管理。
重要提示:
- 这两个数据库都管理欧洲字符(包括一些东欧字母表中的特殊字符,如希腊语等)和俄语字符(西里尔字母),因此将区域切换到“RUSSIA”并不是一个真正的选择;
- 使用 nvarchar2 而不是 varchar2 解决了这个问题(它切换到国家字符集,即 UTF16),但这意味着将 4 TB 数据库中的所有 varchar2 列都切换到 nvarchar2,这很麻烦并且可能导致大量浪费空间;
- 问题出现在管理已存储在数据库中的数据的存储过程中,因此这看起来不像是客户端配置错误。
NLS 参数的数据库属性(我删除了日期和货币格式,因为它们并不真正相关):
+-----------------------------------+------------+------------+
| Parameter | 12c | 11g |
+-----------------------------------+------------+------------+
| NLS_CHARACTERSET | AL32UTF8 | AL32UTF8 |
| NLS_COMP | BINARY | BINARY |
| NLS_DATE_LANGUAGE | AMERICAN | AMERICAN |
| NLS_ISO_CURRENCY | AMERICA | AMERICA |
| NLS_LANGUAGE | AMERICAN | AMERICAN |
| NLS_LENGTH_SEMANTICS | BYTE | BYTE |
| NLS_NCHAR_CHARACTERSET | AL16UTF16 | AL16UTF16 |
| NLS_NCHAR_CONV_EXCP | FALSE | FALSE |
| NLS_NUMERIC_CHARACTERS | ., | ., |
| NLS_RDBMS_VERSION | 12.1.0.2.0 | 11.2.0.4.0 |
| NLS_SORT | BINARY | BINARY |
| NLS_TERRITORY | AMERICA | AMERICA |
+-----------------------------------+------------+------------+
V$Parameter 属性(相同,删除日期):
+-----------------------------------+----------------+----------------+
| Parameter | 12c | 11g |
+-----------------------------------+----------------+----------------+
| NLS_COMP | BINARY | BINARY |
| NLS_DATE_LANGUAGE | ENGLISH | ENGLISH |
| NLS_ISO_CURRENCY | UNITED KINGDOM | UNITED KINGDOM |
| NLS_LANGUAGE | ENGLISH | ENGLISH |
| NLS_LENGTH_SEMANTICS | CHAR | CHAR |
| NLS_NCHAR_CONV_EXCP | FALSE | FALSE |
| NLS_NUMERIC_CHARACTERS | ., | ., |
| NLS_SORT | BINARY | BINARY |
| NLS_TERRITORY | UNITED KINGDOM | UNITED KINGDOM |
+-----------------------------------+----------------+----------------+
来自 12c 数据库的示例:
SELECT 'This is a test данные испытаний' as "Original",
lpad(nvl('This is a test данные испытаний', ' '), 40) as "LPADded",
lpad(nvl('данные испытаний', ' '), 40) as "Cyrillic only",
lpad(nvl('This is a test', ' '), 40) as "Non-cyrillic only",
lpad(nvl(to_nchar('данные испытаний'), ' '), 40) as "NChar cyrillic only",
lpad(nvl(to_nchar('This is a test данные испытаний'),
' '),
40) as "NChar mixed"
FROM dual;
结果:
This is a test данные испытаний (original - 31 chars)
This is a test данные испыта (std lpad - 28 chars)
данные испытаний (std lpad cyrillic only - 25 chars)
This is a test (std lpad non-cyrillic only - 40 chars)
данные испытаний (nchar lpad cyrillic only - 40 chars)
This is a test данные испытаний (nchar lpad mixed - 40 chars)
在 11g 数据库中,以上所有(当然除了原始的)的长度都是 40 个字符。
谢谢
最佳答案
我认为问题与 UNICODE 中的模糊字体有关。您可以在此处找到说明:
http://unicode.org/reports/tr11/#Ambiguous
在 oracle 中,如果你使用
lengthc function
总是返回字符的实际长度, 而
lenghtb function
返回字符的字节占用。
一种可能的解决方案是使用以下形式:
我尝试使用占用 2 个字节的 UNISTR('\4F4F')
select lpad('pippo'||UNISTR('\4F4F'),10+lengthc(UNISTR('\4F4F')),'x') from dual;
并且显示的长度就是想要的长度
关于Oracle12 : lpad function does not manage 2 bytes characters as Oracle11,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65066164/