我正在建立一个小网站,并希望使其国际化。所有内容将以不同语言存储在外部xml中,并通过javascript解析为html。
现在的问题是,还有德语变音符号、俄语、中文和日语符号以及从右到左的语言,如阿拉伯语和波斯语。
最好的方法/解决方案是什么?有没有可以正确显示所有语言的“国际编码”?或者您有任何其他建议吗?
提前致谢!
最佳答案
所有 Unicode 转换(UTF-8、UTF-16、UTF-32)都可以对所有 Unicode 字符进行编码。您可以根据大小选择要使用的字符:如果您的大部分文本是西方文字,可能是 UTF-8,因为它只对大多数字符使用一个字节,但如果需要,则使用 2、3 或 4。如果您正在编码远东文字,您可能需要其他转换之一。
这里的根本是它都是 Unicode;转换只是表示相同字符的不同方式。
Stack Overflow 的联合创始人有一篇关于此主题的好文章:The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
无论您对文档使用何种编码,请注意,如果您在 JavaScript 中处理这些字符串,JavaScript strings are UTF-16 (除非容忍无效值)。 (即使文档是 UTF-8 或 UTF-32。)这意味着,例如,这些天人们如此兴奋的表情符号中的每一个看起来像 JavaScript 的两个“字符”,因为它们采用两个 UTF 单词-16 来表示。像😎,例如:
console.log("😎".length); // 2
因此,您需要注意不要将以 UTF-16 的两个单词编码的两半字符分开。
关于javascript - 许多国际语言使用哪种编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39021546/