string - 在 Perl 中,为什么 utf-8 字符串在拆分为字符时打印的不同?

标签 string perl unicode utf-8 language-lawyer

当我使用时,特殊构造的字符串的打印方式不同

print $b;

或者
print for split //, $b;

一个最小的例子是:
#!perl
use warnings;
use strict;

use Encode;

my $b = decode 'utf8', "\x{C3}\x{A1}\x{E2}\x{80}\x{93}\x{C3}\x{A1}"; # 'á–á' in Unicode;

print $b, "\n";
print for split //, $b

控制台屏幕上的输出(我想我使用的是 cp860)是:
Wide character in print at xx.pl line 9.
├íÔÇô├í
Wide character in print at xx.pl line 10.
ßÔÇôß

或十六进制:
C3 A1 E2 80 93 C3 A1 
E1 E2 80 93 E1

(当然由 0D 0A 分隔,即 \r\n )。

问题是为什么角色呈现不同?

令人惊讶的是,如果没有 em-dash,效果就会消失。对于较长的字符串,可以看到效果,如以下示例所示。

对于字符串 'Él es mi tío Toño –Antonio Pérez'(在程序中输入为 Unicode;注意这两行是不同的!):
Wide character in print at xx.pl line 14.
├ël es mi t├¡o To├▒o ÔÇôAntonio P├®rez
Wide character in print at xx.pl line 15.
╔l es mi tÝo To±o ÔÇôAntonio PÚrez

但是,对于字符串 'Él es mi tío Toño, Antonio Pérez':
╔l es mi tÝo To±o, Antonio PÚrez
╔l es mi tÝo To±o, Antonio PÚrez

没有什么不好的事情发生,两条线以相同的方式呈现。唯一的区别是存在一个短划线 ,即 '\x{E2}\x{80}\x{93}' !

另外,print join '', split //, $b;给出与 print $b; 相同的结果但不同于print for split //, $b; .

如果我添加 binmode STDOUT, 'utf8'; ,那么两个输出都是 ÔÇô├í = E2 80 93 C3 A1。

所以我的问题不完全是关于如何避免它,而是关于为什么会发生这种情况:为什么相同的字符串在拆分时表现不同?

显然在这两种情况下 utf8旗帜亮了。这是一个更详细的程序,显示了关于两个字符串的更多信息:$a之前 decode$b之后 decode :
#!perl
use warnings;
use strict;
use 5.010;

use Encode;

my $a = "\x{C3}\x{A1}\x{E2}\x{80}\x{93}\x{C3}\x{A1}"; # 'á–á' in Unicode;
my $b = decode 'utf8', $a;

say '------- length and utf8 ---------';
say "Length (a)=", length $a, ", is_uft8(a)=", (Encode::is_utf8 ($a) // 'no'), ".";
say "Length (b)=", length $b, ", is_uft8(b)=", (Encode::is_utf8 ($b) // 'no'), ".";
say '------- as a variable---------';
say "a: $a";
say "b: $b", ' <== *** WHY?! ***';
say '------- split ---------';
print "a: "; print for split //, $a; say '';
print "b: "; print for split //, $b; say ' <== *** DIFFERENT! ***';
say '------- split with spaces ---------';
print "a: "; print "[$_] " for split //, $a; say '';
print "b: "; print "[$_] " for split //, $b; say '';
say '------- split with properties ---------';
print "a: "; print "[$_ is_utf=" . Encode::is_utf8 ($_) . " length=" . length ($_) . "] " for split //, $a; say '';
print "b: "; print "[$_ is_utf=" . Encode::is_utf8 ($_) . " length=" . length ($_) . "] " for split //, $b; say '';
say '------- ord() ---------';
print "a: "; print ord, " " for split //, $a; say '';
print "b: "; print ord, " " for split //, $b; say '';

这是它在控制台上的输出:
------- length and utf8 ---------
Length (a)=7, is_uft8(a)=.
Length (b)=3, is_uft8(b)=1.
------- as a variable---------
a: ├íÔÇô├í
Wide character in say at x.pl line 16.
b: ├íÔÇô├í <== *** WHY?! ***
------- split ---------
a: ├íÔÇô├í
Wide character in print at x.pl line 19.
b: ßÔÇôß <== *** DIFFERENT! ***
------- split with spaces ---------
a: [├] [í] [Ô] [Ç] [ô] [├] [í]
Wide character in print at x.pl line 22.
b: [ß] [ÔÇô] [ß]
------- split with properties ---------
a: [├ is_utf= length=1] [í is_utf= length=1] [Ô is_utf= length=1] [Ç is_utf= length=1] [ô is_utf= length=1] [├ is_utf= length=1] [í is_utf= length=1]
Wide character in print at x.pl line 25.
b: [ß is_utf=1 length=1] [ÔÇô is_utf=1 length=1] [ß is_utf=1 length=1]
------- ord() ---------
a: 195 161 226 128 147 195 161
b: 225 8211 225

最佳答案

区别在于正在打印的字符串是否包含任何大于 255 的字符。 print只知道你在那种情况下做错了什么[1]。

给定一个没有 :encoding 的句柄, print需要一个字节串(字符串≤255)。

当它不接收字节(字符串包含大于 255 个字符)时,它会通知您错误(“宽字符”)并猜测您打算使用 UTF-8 对字符串进行编码。

你可以想到print在没有 :encoding 的 handle 上执行以下操作:

if ($s =~ /[^\x00-\xFF]/) {
   warn("Wide character");
   utf8::encode($s);
}
my $b = decode 'utf8', "\x{C3}\x{A1}\x{E2}\x{80}\x{93}\x{C3}\x{A1}";

是相同的
my $b = "\xE1\x{2013}\xE1";

因此,你正在做
print "\xE1\x{2013}\xE1";
print "\xE1";
print "\x{2013}";
print "\xE1";

  • print "\xE1\x{2013}\xE1";   # Wide char! C3 A1 E2 80 93 C3 A1
    

    Perl 注意到您忘记编码,警告您并打印使用 UTF-8 编码的字符串。

  • print "\xE1";               # E1
    

    Perl 无法知道您忘记编码,因此它会打印您要求它打印的内容。

  • print "\x{2013}";           # Wide char! E2 80 93
    

    Perl 注意到您忘记编码,警告您并打印使用 UTF-8 编码的字符串。


  • 脚注
  • 存储格式的选择(由 is_utf8 返回)不应该有影响。 print正确地不受它的影响。
    utf8::downgrade( my $d = chr(0xE1) );  print($d);  # UTF8=0 prints E1
    utf8::upgrade(   my $u = chr(0xE1) );  print($u);  # UTF8=1 prints E1
    
  • 关于string - 在 Perl 中,为什么 utf-8 字符串在拆分为字符时打印的不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24793406/

    相关文章:

    c - HashTable 如何将重复的单词只打印一次?

    regex - 如何从perl中的字符串中提取2个以上字符的单词

    windows - 如何在 Windows 7/2008 中自动执行 perl 脚本?

    java - 在 Java 中将字符串转换为小型大写字母伪字母

    python - pyodbc 返回 ® 作为?

    string - 以字符串形式接收数字(uart)

    asp.net-mvc - 使用 Razor View 引擎 - 如何将十进制值格式化为逗号和两位小数?

    c++ - 计算排序字符串的算法(自制软件 "uniq -c")

    regex - 我如何判断我的 perl 进程是否使用了正则表达式 $PREMATCH/$MATCH/$POSTMATCH 变量(或短的等价物 $`/$'/$&)?

    c++ - UTF 与字符类型