嗯。有谁知道如何创建一个相当于 PHP count_chars($string, 3) 命令的多字节字符函数?
这样它将返回每个唯一字符的仅一个实例的列表。如果那是英语,我们有
“aaabggxxyxzxxgggghq xcccxxxzxxyx”
它将返回“abgh qxyz”(注意空间被计算在内)。
(在这种情况下顺序并不重要,可以是任何顺序)。
如果是日文汉字(不确定浏览器是否都支持):
汉字汉字汉字私字汉字汉字汉字汉字汉字私字
它将只返回使用的 3 个汉字:
汉字私
它需要处理任何 UTF-8 编码的字符串。
最佳答案
嘿戴夫,你永远不会看到这个的到来。
php > $kanji = '漢漢漢字漢字私私字私字漢字私漢字漢字私';
php > $not_kanji = 'aaabcccbbc';
php > $pattern = '/(.)\1+/u';
php > echo preg_replace($pattern, '$1', $kanji);
漢字漢字私字私字漢字私漢字漢字私
php > echo preg_replace($pattern, '$1', $not_kanji);
abcbc
什么,你以为我又要用mb_substr
了?
用正则表达式来说,它是在寻找任何一个字符,然后是该相同字符的一个或多个实例。然后匹配的区域被匹配的一个字符替换。
u
modifier在 PCRE 中打开 UTF-8 模式,它处理 UTF-8 序列 而不是 8 位字符。只要正在处理的字符串已经是 UTF-8 编码,PCRE 是使用 Unicode 支持编译的,这对您来说应该没问题。
嘿,你猜怎么着!
$not_kanji = 'aaabbbbcdddbbbbccgggcdddeeedddaaaffff';
$l = mb_strlen($not_kanji);
$unique = array();
for($i = 0; $i < $l; $i++) {
$char = mb_substr($not_kanji, $i, 1);
if(!array_key_exists($char, $unique))
$unique[$char] = 0;
$unique[$char]++;
}
echo join('', array_keys($unique));
这使用了与随机播放代码相同的通用技巧。我们获取字符串的长度,然后使用 mb_substr
一次提取一个字符。然后我们将该字符用作数组中的键。我们正在利用 PHP 的位置数组:键按照它们定义的顺序排序。一旦我们遍历了字符串并识别了所有字符,我们就抓取键并将它们按照它们在字符串中出现的相同顺序重新组合在一起。您还可以通过这种技术获得每个字符的字符数。
如果有 mb_str_split
这样的东西与 str_split
一起使用,这会容易得多.
(这里没有汉字示例,我遇到了复制/粘贴错误。)
在这里,试穿这个尺寸:
function mb_count_chars_kinda($input) {
$l = mb_strlen($input);
$unique = array();
for($i = 0; $i < $l; $i++) {
$char = mb_substr($input, $i, 1);
if(!array_key_exists($char, $unique))
$unique[$char] = 0;
$unique[$char]++;
}
return $unique;
}
function mb_string_chars_diff($one, $two) {
$left = array_keys(mb_count_chars_kinda($one));
$right = array_keys(mb_count_chars_kinda($two));
return array_diff($left, $right);
}
print_r(mb_string_chars_diff('aabbccddeeffgg', 'abcde'));
/* =>
Array
(
[5] => f
[6] => g
)
*/
您需要调用此两次,第二次是左边的字符串在右边,右边的字符串在左边。输出会有所不同——array_diff
只会为您提供左侧缺少的内容,而右侧则有所不同,因此您必须执行两次才能了解整个故事。
关于从多字节字符串中去除重复字符的 PHP 方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5413655/