Oracle12 : lpad function does not manage 2 bytes characters as Oracle11

标签 oracle oracle11g character-encoding oracle12c cyrillic

我遇到了一个非常奇怪的问题,即 Oracle 12c 不像 Oracle 11g 那样管理 2 字节字符,导致 LPAD 等某些功能出现问题。

我们有两个数据库,一个 11g 和一个 12c,具有相同的 NLS 参数,但是 11g 在 LPAD 等函数中将西里尔字符管理为 1 个字节,而 12c 将它们管理为 2 个字节,这会导致问题:如果我们需要某个值为 40 个字符长,其中的每个西里尔字符在填充时将计为 2 个字节,但将显示为 1 个字符,这意味着 5 个西里尔字符被 LPADded 为 40 实际上将生成一个长度为 35 的值。

此行为在 Oracle 官方文档 ( https://docs.oracle.com/database/121/SQLRF/functions107.htm#SQLRF00663 ) 中有所描述,但几个版本(包括 11g)都是如此,所以我不清楚为什么这两个版本在相同设置下应该有不同的行为,并且以防万一,如何管理。

重要提示:

  1. 这两个数据库都管理欧洲字符(包括一些东欧字母表中的特殊字符,如希腊语等)和俄语字符(西里尔字母),因此将区域切换到“RUSSIA”并不是一个真正的选择;
  2. 使用 nvarchar2 而不是 varchar2 解决了这个问题(它切换到国家字符集,即 UTF16),但这意味着将 4 TB 数据库中的所有 varchar2 列都切换到 nvarchar2,这很麻烦并且可能导致大量浪费空间;
  3. 问题出现在管理已存储在数据库中的数据的存储过程中,因此这看起来不像是客户端配置错误。

NLS 参数的数据库属性(我删除了日期和货币格式,因为它们并不真正相关):

+-----------------------------------+------------+------------+
|   Parameter                       |   12c      |   11g      |
+-----------------------------------+------------+------------+
| NLS_CHARACTERSET                  | AL32UTF8   | AL32UTF8   |
| NLS_COMP                          | BINARY     | BINARY     |
| NLS_DATE_LANGUAGE                 | AMERICAN   | AMERICAN   |
| NLS_ISO_CURRENCY                  | AMERICA    | AMERICA    |
| NLS_LANGUAGE                      | AMERICAN   | AMERICAN   |
| NLS_LENGTH_SEMANTICS              | BYTE       | BYTE       |
| NLS_NCHAR_CHARACTERSET            | AL16UTF16  | AL16UTF16  |
| NLS_NCHAR_CONV_EXCP               | FALSE      | FALSE      |
| NLS_NUMERIC_CHARACTERS            | .,         | .,         |
| NLS_RDBMS_VERSION                 | 12.1.0.2.0 | 11.2.0.4.0 |
| NLS_SORT                          | BINARY     | BINARY     |
| NLS_TERRITORY                     | AMERICA    | AMERICA    |
+-----------------------------------+------------+------------+

V$Parameter 属性(相同,删除日期):

+-----------------------------------+----------------+----------------+
|   Parameter                       |   12c          |   11g          |
+-----------------------------------+----------------+----------------+
| NLS_COMP                          | BINARY         | BINARY         |
| NLS_DATE_LANGUAGE                 | ENGLISH        | ENGLISH        |
| NLS_ISO_CURRENCY                  | UNITED KINGDOM | UNITED KINGDOM |
| NLS_LANGUAGE                      | ENGLISH        | ENGLISH        |
| NLS_LENGTH_SEMANTICS              | CHAR           | CHAR           |
| NLS_NCHAR_CONV_EXCP               | FALSE          | FALSE          |
| NLS_NUMERIC_CHARACTERS            | .,             | .,             |
| NLS_SORT                          | BINARY         | BINARY         |
| NLS_TERRITORY                     | UNITED KINGDOM | UNITED KINGDOM |
+-----------------------------------+----------------+----------------+

来自 12c 数据库的示例:

SELECT 'This is a test данные испытаний' as "Original",
       lpad(nvl('This is a test данные испытаний', ' '), 40) as "LPADded",
       lpad(nvl('данные испытаний', ' '), 40) as "Cyrillic only",
       lpad(nvl('This is a test', ' '), 40) as "Non-cyrillic only",
       lpad(nvl(to_nchar('данные испытаний'), ' '), 40) as "NChar cyrillic only",
       lpad(nvl(to_nchar('This is a test данные испытаний'),
                ' '),
            40) as "NChar mixed"
  FROM dual;

结果:

This is a test данные испытаний           (original - 31 chars)
This is a test данные испыта              (std lpad - 28 chars)
         данные испытаний                 (std lpad cyrillic only - 25 chars)
                          This is a test  (std lpad non-cyrillic only - 40 chars)
                        данные испытаний  (nchar lpad cyrillic only - 40 chars)
         This is a test данные испытаний  (nchar lpad mixed - 40 chars)

在 11g 数据库中,以上所有(当然除了原始的)的长度都是 40 个字符。

谢谢

最佳答案

我认为问题与 UNICODE 中的模糊字体有关。您可以在此处找到说明:

http://unicode.org/reports/tr11/#Ambiguous

在 oracle 中,如果你使用

lengthc function 

总是返回字符的实际长度, 而

 lenghtb function 

返回字符的字节占用。

一种可能的解决方案是使用以下形式:

我尝试使用占用 2 个字节的 UNISTR('\4F4F')

 select lpad('pippo'||UNISTR('\4F4F'),10+lengthc(UNISTR('\4F4F')),'x') from dual;

并且显示的长度就是想要的长度

关于Oracle12 : lpad function does not manage 2 bytes characters as Oracle11,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65066164/

相关文章:

oracle - 在 MVC3 应用程序中使用带有表单例份验证的 Oracle 数据库

json - Oracle Rest 数据服务以 JSON 形式返回集合

python - 从 bash 脚本调用存储过程,ORA-01756 : quoted string not properly terminated

sql - 在 Oracle 中即时构建数字表

jquery ajax编码数据

java - LayoutWrappingEncoder 的 LogBack 默认字符集?

mysql - 查找两个不同表中两列中的不一致之处

sql - SQL中多对多的解析

oracle - 如何在 oracle 11g 中从 SELECT 语句创建表

vb.net - 如何将 UnicodeEncoding 输出转换为纯字符串?