我想拆分一个 utf-8 字符串。
我尝试了 StringTokenizer
但它失败了。
标题应为“0”,但显示为“عُدي_صدّام_حُسين”。
String test = "en.m عُدي_صدّام_حُسين 1 0";
StringTokenizer stringTokenizer = new StringTokenizer(test);
String code = stringTokenizer.nextToken();
String title = stringTokenizer.nextToken();
最佳答案
这里的问题是阿拉伯语文本不在字符串的“末尾”。
例如,如果我选择字符串文字的内容(在 Chrome 中),将鼠标从左向右移动,它首先选择 en.m
,然后选择所有阿拉伯语文本,然后是 0 1
。文本只是看起来“在末尾”,因为这就是它的呈现方式。
在您的 Java 源代码中指定的字符串实际上确实具有 عُدي_صدّام_حُسين
作为第二个标记。所以,您正确地拆分了它,只是没有拆分您认为正在拆分的内容。
关于java - 拆分UTF-8字符串的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48418302/