php - php : var_export() returns\0 null characters, 和 ucfirst()、strtoupper() 等中的 UTF-8 问题表现异常

标签 php utf-8 localization joyent

我们正在处理一个以前从未发生过的 Joyent Solaris 服务器中的奇怪错误(不会发生在本地主机或其他两个具有相同 php 配置的 Solaris 服务器中)。其实我也不确定是要看php还是solaris,是软件问题还是硬件问题...

我只是想发布这个,以防有人能为我们指明正确的方向。

所以,问题似乎出在 var_export() 处理奇怪的字符时。 在 CLI 中执行此操作,我们在本地主机和两台服务器中获得了预期的结果,但在第三台服务器中没有。所有这些都配置为使用 utf-8

$ php -r "echo var_export('ñu', true);"

在较旧的服务器和本地主机中提供此(预期):

'ñu'

但在服务器中我们遇到了问题 (PHP 版本 => 5.3.6),它会在遇到“不常见”字符时添加 \0 空字符: è, á, ç, ... 随你便。

'' . "\0" . '' . "\0" . 'u'

关于应该看哪里的任何想法?提前致谢。


更多信息:

  • PHP 版本 5.3.6
  • setlocale() 没有解决任何问题。
  • default_charsetphp.ini 中的 UTF-8
  • mbstring.internal_encodingphp.ini 中设置为 UTF-8
  • mbstring.func_overload = 0
  • 这在 CLI(示例)和 Web 应用程序(php-fpm + nginx)中都会发生。
  • iconv编码也是UTF-8
  • 所有文件 utf-8 编码。

system('locale') 返回:

LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_ALL=

到目前为止完成的一些测试(CLI):

正常行为:

$ php -r "echo bin2hex('ñu');" => 'c3b175'
$ php -r "echo mb_strtoupper('ñu');" => 'ÑU'
$ php -r "echo serialize(\"\\xC3\\xB1\");" => 's:2:"ñ";'
$ php -r "echo bin2hex(addcslashes(b\"\\xC3\\xB1\", \"'\\\\\"));" => 'c3b1'
$ php -r "echo ucfirst('iñu');" => 'Iñu'

不正常:

$ php -r "echo strtoupper('ñu');" => 'U' 
$ php -r "echo ucfirst('ñu');" => '?u' 
$ php -r "echo ucfirst(b\"\\xC3\\xB1u\");" => '?u' 
$ php -r "echo bin2hex(ucfirst('ñu'));" => '00b175'
$ php -r "echo bin2hex(var_export('ñ', 1));" => '2727202e20225c3022202e202727202e20225c3022202e202727'
$ php -r "echo bin2hex(var_export(b\"\\xC3\\xB1\", 1));" => '2727202e20225c3022202e202727202e20225c3022202e202727'

所以问题似乎出在 var_export()"string functions that use the current locale but operate byte-by-byte" Docs 中(查看@hakre 的回答)。

最佳答案

我建议您验证遇到问题的 PHP 二进制文件。检查编译器标志及其使用的库。

通常 PHP 在内部使用二进制字符串,这意味着像 ucfirst 这样的函数是逐字节工作的,并且只支持您的语言环境支持的内容(如果配置了的话)。参见 Details of the String TypeDocs

$ php -r "echo ucfirst('ñu');" 

返回

?u

这是有道理的,ñ

LATIN SMALL LETTER N WITH TILDE (U+00F1)    UTF8: \xC3\xB1

您配置了一些区域设置,使 PHP 将 \xC3 更改为其他内容,破坏了 UTF-8 字节序列并使您的 shell 显示 � replacement characterWikipedia

我建议如果你真的想分析问题,你应该从 hexdumps 开始,它位于 shell 和其他地方的显示方式旁边。 知道你可以显式定义二进制字符串 b"string" (这是向前兼容,也许你已经启用了一些编译标志并且你正在使用 unicode 实验?),你也可以按字面意思编写字符串,这里是 UTF-8 的十六进制:

 $ php -r "echo ucfirst(b\"\\xC3\\xB1u\");"

还有很多设置可以发挥作用,我开始在an answer to Preparing PHP application to use with UTF-8中列出一些要点。


多字节 ucfirst 变体示例:

/**
 * multibyte ucfirst
 *
 * @param string $str
 * @param string|null $encoding (optional)
 * @return string
 */
function mb_ucfirst($str, $encoding = NULL)
{
    $first = mb_substr($str, 0, 1, $encoding);
    $rest = mb_substr($str, 1, strlen($str), $encoding);
    return mb_strtoupper($first, $encoding) . $rest;
}

参见 mb_strtoupperDocs 以及 mb_convert_caseDocs

关于php - php : var_export() returns\0 null characters, 和 ucfirst()、strtoupper() 等中的 UTF-8 问题表现异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9741240/

相关文章:

php - MYSQL语法错误

mysql - 使用 Perl/DBI 在 MySQL 表中截断 utf-8 字符串

ios - 添加语言本地化后 Xcode Storyboard无响应

asp.net-mvc - 如何使用 ResX 资源发布/部署 MVC 项目?

c# - ASP.NET Core 自定义验证属性本地化

xml - 如何使用 XML Magento 覆盖 : catalog/product/view/type/default. phtml

php - 从字符串访问子实体属性 - Twig/Symfony

php - Twitter 401 未经授权——OAuth 请求 token

HTML 编码问题 - 显示 "Â"字符而不是 " "

c# - UTF8编码为base64string并存入数据库