unicode - 如何使用 Unicode 字符与汉字/汉字组合?

标签 unicode utf-8 character-encoding unicode-string cjk

我正在尝试找到一种解决方法,使用字符组合在 unicode 中显示旧的和罕见的字符。目前我正在将一些字典从 EPWING 转换为文本,其中有 36 个不同的字符无法使用普通的 UTF-8 再现。下面是我正在转换的一本字典的 epwing gaiji 到 unicode 映射的问题部分,在某些区域它有一个有趣的语法,显然用于以不同方式组合字符。我希望有人能够确定这个语法是什么,以及我在哪里可以找到有关如何使用它的文档或教程。

s/<?w=b02a>/𡓦/g
s/<?w=b04b>/者/g
s/<?w=b064>/<⾱ 𤰇>/g
s/<?w=b077>/<彳<匕\/匕>>/g
s/<?w=b07c>/<山\/⺀>/g
s/<?w=b12e>/𥝝/g
s/<?w=b155>/</>/g
s/<?w=b156>/<\/>/g
s/<?w=b157>/<\/\/>/g
s/<?w=b158>/<こ[1]/と|ヿ>/g
s/<?w=b16f>/<㗢>/g
s/<?w=b170>/<㗥>/g
s/<?w=b171>/ଏ/g
s/<?w=b175>/lb/g
s/<?w=b22a>//g
s/<?w=b234>/ff/g
s/<?w=b25e>/㯌/g
s/<?w=b271>/<扌 晉>/g
s/<?w=b36b>/𣴴/g
s/<?w=b373>/𥝱/g
s/<?w=b42c>/𦼠/g
s/<?w=b434>/<已\/大>/g
s/<?w=b438>/𩸽/g
s/<?w=b43a>/𩺊/g
s/<?w=b43f>/<㇀/丶>/g
s/<?w=b440>/𠂆/g
s/<?w=b45a>/<?>/g
s/<?w=b45b>/<|>/g
s/<?w=b53d>/<?>/g
s/<?w=b53e>/<?>/g
s/<?w=b540>/<o>/g
s/<?w=b537>/<ト モ>/g
s/<?w=b541>/<一/𠔀>/g
s/<?w=b544>/<?>/g
s/<?w=b546>/<[r45]卐>/g
s/<?w=b55f>/*/g

我知道这条线应该将彳表示为左垂直部首,其中一个匕堆叠在另一个匕的顶部作为该字符的右垂直部分:

s/<?w=b077>/<彳<匕\/匕>>/g

这个也很明显,是一个旋转了45度的卐:

s/<?w=b546>/<[r45]卐>/g

注意:?w= 后面的四个字符的十六进制代码是 epwing gaiji 的标识符,该 unicode 应该对应于该标识符。

感谢您的宝贵时间。

最佳答案

请参阅The Unicode Standard第 12.2 节,表意描述字符。它讨论了您的具体情况。

不幸的是,您可能会发现对您正在尝试做的事情的软件支持实际上不存在。

关于unicode - 如何使用 Unicode 字符与汉字/汉字组合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3546551/

相关文章:

javascript - 是否可以构造一个匹配 Grapheme Cluster Break=Extend 的\p JavaScript 正则表达式

Python通过json返回一个字符串

r - RMarkdown PDF 输出中未显示某些 Unicode 字符

c# - 我如何读取数据库文件并应用不同的解码?

java - 为什么 Files.readAllBytes() 不接受编码参数?

python - 解码 json 编码为 GB2312

python - 如何使用 Python 读取 excel Unicode 字符

c - 使用C代码在Windows上读取带有波兰语字符的文件名

C++ - 如何使用 C++ 读取 Unicode 字符(例如印地语脚本),或者是否有更好的方法通过其他一些编程语言?

php - 获取文件的字符编码而不将整个文件读入内存