xml - 在XML中编码二进制数据:是否有比base64更好的替代方法？

我想在一个xml文件中对二进制数据进行编码和解码（使用python，但不管怎样）。我不得不面对这样一个事实：XML标记内容包含非法字符。唯一允许的在XML specs中描述：

Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

这意味着不允许的是：
29个Unicode控制字符是非法的（0x00-0x20）IE（000xxxxx），除了0x09、0x0a、0x0d
任何超过2字节（utf-16+）的unicode字符表示都是非法的（u+d800-u+dfff）ie（11011xxx）
特殊的unicode非字符是非法的（0xfffe-0xffff）ie（1111111111111x）
<，>，根据this post实体内容
1个字节可以编码256个可能值。有了这些限制，第一个字节被限制为256-29-8-1-3=215个可能值。
在第一个字节的215个可能性中，base64只使用64个可能性。Base64产生33%的开销（一旦用Base64编码，6位就变成1字节）。
所以我的问题很简单：有没有比base64更有效的算法来编码xml中的二进制数据？如果不是，我们应该从哪里开始创建它？（图书馆等）
注意：你不会用“你不应该用XML来编码二进制数据，因为…”来回答这篇文章。不要这样做。您最多可以争论为什么不使用215种可能的错误XML解析器支持。
NB2：我不是说第二个字节，但肯定有一些考虑因素，我们可以制定关于可能性的数量，事实上，它应该以10xxxxxx开始，以尊重UTF8标准，当我们使用补充Unicode平面（如果不是呢？）.

最佳答案

感谢阿雅为asc85链接，有非常好的想法。
我在下面为我们的案子开发了它们。
UTF-8字符可能：
对于1字节字符（0xxxxxxx）：每字节96个可能值
+utf-8 ascii字符0xxxxxxx=+2^7
-UTF-8控制字符000xxxxx=-2^5
+XML允许的UTF-8控制字符（000000090000000A，0000000D）=+3
-XML实体不允许的字符（<，>，&）=-3
编辑：这是针对xml1.0规范的。XML 1.1 specs允许使用除0x00以外的控制字符…
对于2字节字符（110xxxxx10xxx）：每2字节有1920个字节
+utf-8双字节字符110xxxxx10xxxxxx=+2^11
-utf-8非法非规范字符（1100000x10xxx）=-2^7
对于3字节字符（1110xxxx 10xxxxx 10xxxxxx）：每3字节61440个字节
+UTF-8 3字节字符1110xxxx 10xxxxx 10xxxxxx=+2^16
-utf-8非法非规范字符（11100000100xxxxx10xxxxxx）=-2^11
-Unicode保留UTF-16码位（11101101 101xxxxx 10xxxxxx）=-2^11
我不会对4字节字符进行计算，这是毫无意义的：可能的字符数可以忽略不计，在这个范围内有太多非法的utf-8字符。
在3字节的空间中编码的可能性
因此，让我们看看在3字节（24位）空间上可以进行哪些组合：
0xxxxxxx 0xxxxxxx 0xxxxxxx:这是96*96*96=884736的可能性
0xxxxxx 110xxxxx 10xxxxxx:这是96*1920=184320个可能性
110xxxxx10xxxxxx：1920*96=184320个可能性
1110xxxx 10xxxxx 10xxxxxx：这是61440=61440的可能性
还有其他的可能性（比如3字节的字符以空格结尾或开头，但是4字节的字符，这对我来说很难计算，而且可能可以忽略不计）。
可能性总数：
3字节的空间有2^24=16777216
可能性。
UTF-8兼容的可能性是884736+2*184320+61440=1314816。
这意味着多少开销？
24位空间可用位：log2（16777216）=24（当然！这是为了理解数学）
这个空间的utf-8有用位：log2（1314816）=20,32有用位。
这意味着我们需要24位的空间来编码20，32位的有用信息，也就是说，最小的理论开销是18% overhead。比Base64的33%开销和Ascii85的25%开销要好得多！
编辑：这是针对xml1.0规范的。对于xml1.1（未得到广泛支持…），理论开销为12.55%。我设法用xml1.1 14.7%的开销实现了一个二进制安全算法。
如何接近18%的间接费用？
坏消息是，我们不可能轻易地得到18%的爱，而不使用一个大的“措辞”（即长编码集）。但是20%很容易拿到，19%很容易但不太实用。
良好的编码长度候选：
6位可以用20%的开销对5位进行编码（2^（6*0,84）>2^5）
12位可以用20%的开销对10位进行编码（2^（12*0,84）>2^10）
24位可以用20%的开销对20位进行编码（2^（24*0,84）>2^20）
25位可以用19%的开销对21位进行编码（2^（25*0,84）>2^21）
nb:0,84是空间位（20,32/24）的平均“有用性”。
如何建立我们的编码算法？
我们需要建立一个“dictionary”，将“space possibles”（长度为5、10、20或21位的随机位序列，取决于为算法选择的编码长度-只需选择一个）映射到utf8兼容序列（长度为6、12的utf8位序列，24或25位）。
最简单的起点是将20位序列编码成24位兼容的utf-8序列：这正是上面用来计算可能性的示例，长度为3 utf-8字节（因此我们不必担心未终止的utf8字符）。
注意，我们必须使用2字节（或更高）的utf-8字符编码空间来达到20%的开销。只有1字节长的utf8字符，使用基数-24时，我们只能达到25%的开销。但是，3字节长的utf-8字符不需要达到20%的开销。
这是这个问题的下一个挑战。谁想玩？：）
一个算法建议，我将为xml命名baseutf-8
要编码的20个二进制位：abcdefghijklmnopqrst
生成名为“encoded”的utf-8字符串：24位长
数学编码算法（不基于任何已知的编程语言）：

If GH != 00 && NO != 00:
    encoded = 01ABCDEF 0GHIJKLM 0NOPQRST # 20 bits to encode, 21 space bits with restrictions (1-byte UTF-8 char not starting by 000xxxxx ie ASCII control chars)

If ABCD != 0000:
    If GH == 00 && NO == 00: # 16 bits to encode
        encoded = 0010ABCD 01EFIJKL 01MPQRST    
    Else If GH == 00:  # 18 bits to encode, 18 space bits with restrictions (1-byte  UTF-8 ASCII control char, 2-bytes UTF-8 char noncanonical)
        encoded = 0NOFIJKL 110ABCDE 10MPQRST
    Else If NO == 00:  # 18 bits to encode
        encoded = 110ABCDE 10MPQRST 0GHFIJKL

If ABCD == 0000: # 16 bits to encode
    encoded = 0011EFGH 01IJKLMN 01OPQRST

On "encoded" variable apply:
    convert < (0x3C) to Line Feed (0x0A)
    convert > (0x3E) to Cariage Return (0x0D)
    convert & (0x26) to TAB (0x09)

所以你只能得到20%的间接费用。
当要编码的字符串不是20的倍数时，此算法尚未提供管理字符串终止的方法。还必须提供解码算法，但这很容易（不要忘记抛出异常以强制解码的唯一性）。

关于xml - 在XML中编码二进制数据:是否有比base64更好的替代方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17301940/

xml - 在XML中编码二进制数据:是否有比base64更好的替代方法？

上一篇：regex - 从未知(对我来说)编码中删除不可打印的空格

下一篇：xml - 匹配 XSL 中的子元素