text - 什么是合理的日语支持的最小 unicode 字符集?

标签 text unicode fonts internationalization

我有一个需要为日本观众移植的移动应用程序。应用程序的一部分是自定义字体文件,需要从仅包含 latin-1 字符扩展到还包含日语字符。我意识到这会使它变得相当大,但这不是今天的问题。

请注意,我无法控制此应用程序要显示的文本,因此它需要能够支持足以显示用户生成的内容。

这是我认为的最大 unicode 范围集,可以涵盖它所需的任何内容。

 Compatability                         U+3300  -  U+33FF
 Compatability forms                   U+FE30  -  U+FE4F
 Compatability ideographs              U+F900  -  U+FAFF
 Compatability ideographs supplement  U+2F800  - U+2FA1F
 Radicals supplement                   U+2E80  -  U+2EFF
 Strokes                               U+31C0  -  U+31EF
 Symbols and punctuation               U+3000  -  U+303F
 Unified Ideographs                    U+4E00  -  U+9FBB
 Unified Ideographs ext. A             U+3400  -  U+4DB5
 Unified Ideographs ext. B            U+20000  - U+2A6D6
 Enclosed letters and months           U+3200  -  U+32FF
 Hiragana                              U+3040  -  U+309F
 Kanbun                                U+3190  -  U+319F
 Katakana                              U+30A0  -  U+30FF
 Katakana phonetic                     U+31F0  -  U+31FF

我需要知道的是:
  • 此列表中是否缺少任何内容?
  • 有什么明显不需要的吗?
  • 有什么可以说是不重要的,为什么可以这样争论?
  • 最佳答案

    基本特征总结

    封闭的字母数字 U+2460 - U+2473
    "U+2474 - U+24E9*
    "U+24EA - U+24FF
    杂项符号 U+2600 - U+2607
    "U+2618 - U+2618
    "U+260E - U+260F
    "U+2614 - U+2615
    "U+263D - U+2653
    "U+2660 - U+266F
    符号和标点符号 U+3000 - U+303F
    平假名 U+3040 - U+309F
    片假名 U+30A0 - U+30FF
    片假名拼音 U+31F0 - U+31FF
    封闭的字母和月份 U+321F - U+325F*
    "U+3280 - U+32FF*
    统一表意文字分机。 A U+3400 - U+4DB5
    统一表意文字 U+4E00 - U+9FBB
    兼容性表意文字 U+F900 - U+FAFF
    兼容性形式 U+FE30 - U+FE4F
    全宽罗马字 U+FF00 - U+FF5E
    半宽片假名 U+FF61 - U+FF9F
    全宽和半宽符号 U+FFE0 - U+FFEE
    统一表意文字分机。 B U+20000 - U+2A6D6
    兼容表意文字补充 U+2F800 - U+2FA1F

    * = 低优先级

    完整说明

    不要忘记全角罗马字,它经常用于日语中的罗马字母表 (FF00-FF5E) 和半角片假名页 (FF61-FF9F)。您可能还需要全角和半角符号 (FFE0-FFEE)。

    可以提出一个论点,即通常不会使用 Kanbun 注释页 (3190-319F)。 Kanbun 是一种古老的日语,它使用所有汉字(没有平假名或片假名)和一套不同的语法规则,通常在学校教授。除非有人试图解释如何阅读/理解这些段落之一,否则不会使用这些注释标记,这可能不太可能。出于完整性考虑,可以将其包括在内,但可能不是高优先级。

    CJK Compatability (3300-33FF) 通常被打印媒体的报纸使用,但几乎肯定不会被普通公众使用(我还没有在网站上看到过)。在任何一种情况下,它们都有等效的长形式(例如,㌘ 可以写为 グラム),因此这也属于非必要类别。

    CJK 自由基补充剂 (2E80-2EFF) 也不是必需的,但可以使用。它们不是完整的字符,而是字符的“部首”(基础部分)。它们可用于解释字符的派生,但不太可能用于语言的正常应用。

    CJK Strokes (31C0-31E3) 与 CJK Radicals Supplement 相同,在日常应用中使用的可能性可能更低。

    不需要附上 CKJ Letters and Months (3200-321E) 的第一部分。它们是韩国符号。与 (3260-327F) 相同。页面的其余部分使用率较低,但为了完整起见,我将其包括在内,因为有人可能偶尔会尝试使用。但是您可以认为它们的优先级较低。

    您在原始列表中列出的其余部分是必不可少的。

    列表中还缺少封闭式字母数字 (2460-24FF)。带圆圈的数字(2460-2473 和 24EA-24FF)使用相对频繁。然而,带圆圈的字母、带括号的数字和数字句点 (2474-24E9) 可以省略,因为它们不是必需的。

    此外,您最好包含 Miscellaneous Symbols (2600-263C),尽管有些符号的使用频率高于其他符号。绝对必不可少的包括一些天气符号 (2600-2607)、三叶草 (2618)、电话 (260E-260F)、雨伞和热饮 (2614-2615)、占星术和十二生肖符号 (263D-2653),以及玩卡片、温泉和音乐符号 (2660-266F)。

    关于text - 什么是合理的日语支持的最小 unicode 字符集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/713397/

    相关文章:

    python - 从文本文件复制完整的句子并添加到列表

    javascript - jQuery .text() 方法不显示索引项值

    c - 语言识别

    c++ - 在 C 中打印 unicode 字符

    java - Swing:TableCellRenderer 对某些单元格使用粗体

    Ios Swift 循环遍历 info.plist 中应用程序提供的字体

    text - 有人可以以非常简单的图形方式举一个余弦相似度的例子吗?

    r - 为什么在\n中将\n换行符引入\n?

    python - 如何为另一个字符串封装字符串?

    android - Phonegap-Android : Using Arabic/Persian fonts