xml - 在XML中编码二进制数据:是否有比base64更好的替代方法?

标签 xml unicode utf-8 compression xml-serialization

我想在一个xml文件中对二进制数据进行编码和解码(使用python,但不管怎样)。我不得不面对这样一个事实:XML标记内容包含非法字符。唯一允许的在XML specs中描述:

Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

这意味着不允许的是:
29个Unicode控制字符是非法的(0x00-0x20)IE(000xxxxx),除了0x09、0x0a、0x0d
任何超过2字节(utf-16+)的unicode字符表示都是非法的(u+d800-u+dfff)ie(11011xxx)
特殊的unicode非字符是非法的(0xfffe-0xffff)ie(1111111111111x)
<,>,根据this post实体内容
1个字节可以编码256个可能值。有了这些限制,第一个字节被限制为256-29-8-1-3=215个可能值。
在第一个字节的215个可能性中,base64只使用64个可能性。Base64产生33%的开销(一旦用Base64编码,6位就变成1字节)。
所以我的问题很简单:有没有比base64更有效的算法来编码xml中的二进制数据?如果不是,我们应该从哪里开始创建它?(图书馆等)
注意:你不会用“你不应该用XML来编码二进制数据,因为…”来回答这篇文章。不要这样做。您最多可以争论为什么不使用215种可能的错误XML解析器支持。
NB2:我不是说第二个字节,但肯定有一些考虑因素,我们可以制定关于可能性的数量,事实上,它应该以10xxxxxx开始,以尊重UTF8标准,当我们使用补充Unicode平面(如果不是呢?).

最佳答案

感谢阿雅为asc85链接,有非常好的想法。
我在下面为我们的案子开发了它们。
UTF-8字符可能:
对于1字节字符(0xxxxxxx):每字节96个可能值
+utf-8 ascii字符0xxxxxxx=+2^7
-UTF-8控制字符000xxxxx=-2^5
+XML允许的UTF-8控制字符(000000090000000A,0000000D)=+3
-XML实体不允许的字符(<,>,&)=-3
编辑:这是针对xml1.0规范的。XML 1.1 specs允许使用除0x00以外的控制字符…
对于2字节字符(110xxxxx10xxx):每2字节有1920个字节
+utf-8双字节字符110xxxxx10xxxxxx=+2^11
-utf-8非法非规范字符(1100000x10xxx)=-2^7
对于3字节字符(1110xxxx 10xxxxx 10xxxxxx):每3字节61440个字节
+UTF-8 3字节字符1110xxxx 10xxxxx 10xxxxxx=+2^16
-utf-8非法非规范字符(11100000100xxxxx10xxxxxx)=-2^11
-Unicode保留UTF-16码位(11101101 101xxxxx 10xxxxxx)=-2^11
我不会对4字节字符进行计算,这是毫无意义的:可能的字符数可以忽略不计,在这个范围内有太多非法的utf-8字符。
在3字节的空间中编码的可能性
因此,让我们看看在3字节(24位)空间上可以进行哪些组合:
0xxxxxxx 0xxxxxxx 0xxxxxxx:这是96*96*96=884736的可能性
0xxxxxx 110xxxxx 10xxxxxx:这是96*1920=184320个可能性
110xxxxx10xxxxxx:1920*96=184320个可能性
1110xxxx 10xxxxx 10xxxxxx:这是61440=61440的可能性
还有其他的可能性(比如3字节的字符以空格结尾或开头,但是4字节的字符,这对我来说很难计算,而且可能可以忽略不计)。
可能性总数:
3字节的空间有2^24=16777216
可能性。
UTF-8兼容的可能性是884736+2*184320+61440=1314816。
这意味着多少开销?
24位空间可用位:log2(16777216)=24(当然!这是为了理解数学)
这个空间的utf-8有用位:log2(1314816)=20,32有用位。
这意味着我们需要24位的空间来编码20,32位的有用信息,也就是说,最小的理论开销是18% overhead。比Base64的33%开销和Ascii85的25%开销要好得多!
编辑:这是针对xml1.0规范的。对于xml1.1(未得到广泛支持…),理论开销为12.55%。我设法用xml1.1 14.7%的开销实现了一个二进制安全算法。
如何接近18%的间接费用?
坏消息是,我们不可能轻易地得到18%的爱,而不使用一个大的“措辞”(即长编码集)。但是20%很容易拿到,19%很容易但不太实用。
良好的编码长度候选:
6位可以用20%的开销对5位进行编码(2^(6*0,84)>2^5)
12位可以用20%的开销对10位进行编码(2^(12*0,84)>2^10)
24位可以用20%的开销对20位进行编码(2^(24*0,84)>2^20)
25位可以用19%的开销对21位进行编码(2^(25*0,84)>2^21)
nb:0,84是空间位(20,32/24)的平均“有用性”。
如何建立我们的编码算法?
我们需要建立一个“dictionary”,将“space possibles”(长度为5、10、20或21位的随机位序列,取决于为算法选择的编码长度-只需选择一个)映射到utf8兼容序列(长度为6、12的utf8位序列,24或25位)。
最简单的起点是将20位序列编码成24位兼容的utf-8序列:这正是上面用来计算可能性的示例,长度为3 utf-8字节(因此我们不必担心未终止的utf8字符)。
注意,我们必须使用2字节(或更高)的utf-8字符编码空间来达到20%的开销。只有1字节长的utf8字符,使用基数-24时,我们只能达到25%的开销。但是,3字节长的utf-8字符不需要达到20%的开销。
这是这个问题的下一个挑战。谁想玩?:)
一个算法建议,我将为xml命名baseutf-8
要编码的20个二进制位:abcdefghijklmnopqrst
生成名为“encoded”的utf-8字符串:24位长
数学编码算法(不基于任何已知的编程语言):

If GH != 00 && NO != 00:
    encoded = 01ABCDEF 0GHIJKLM 0NOPQRST # 20 bits to encode, 21 space bits with restrictions (1-byte UTF-8 char not starting by 000xxxxx ie ASCII control chars)

If ABCD != 0000:
    If GH == 00 && NO == 00: # 16 bits to encode
        encoded = 0010ABCD 01EFIJKL 01MPQRST    
    Else If GH == 00:  # 18 bits to encode, 18 space bits with restrictions (1-byte  UTF-8 ASCII control char, 2-bytes UTF-8 char noncanonical)
        encoded = 0NOFIJKL 110ABCDE 10MPQRST
    Else If NO == 00:  # 18 bits to encode
        encoded = 110ABCDE 10MPQRST 0GHFIJKL

If ABCD == 0000: # 16 bits to encode
    encoded = 0011EFGH 01IJKLMN 01OPQRST

On "encoded" variable apply:
    convert < (0x3C) to Line Feed (0x0A)
    convert > (0x3E) to Cariage Return (0x0D)
    convert & (0x26) to TAB (0x09)

所以你只能得到20%的间接费用。
当要编码的字符串不是20的倍数时,此算法尚未提供管理字符串终止的方法。还必须提供解码算法,但这很容易(不要忘记抛出异常以强制解码的唯一性)。

关于xml - 在XML中编码二进制数据:是否有比base64更好的替代方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17301940/

相关文章:

android - 以编程方式读取 list 中的调试状态

numpy - 导入 numpy 抛出错误 : SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated\uXXXX escape

unicode - 在 Go 中读取带有 BOM 的文件

python - Python 3 中 for 循环的数据类型和文档

php - 转换内联指定的 UTF-8 邮件主题

php - 将 XML 导入 MySQL 5.1

xml - 如何使用 XSLT 对值进行排序?

php - 如何删除网页脚本中的\ufeff 字符?

android - 在 api 14 + 中工作时出现 XMl 错误

python - 编码给出 "' ascii' 编解码器无法编码字符......序号不在范围内(128)“