我遇到编码问题。
例如,我有一条XML消息,其格式编码是“UTF-8”。
<message>
<product_name>apple</product_name>
<price>1.3</price>
<product_name>orange</product_name>
<price>1.2</price>
.......
</message>
现在,此消息支持多种语言:
- 繁体中文(big5),
- 简体中文(GB),
英语 (utf-8)
并且它只会改变特定字段的编码。
例如(繁体中文),苹果 1.3 橙子 1.2 …………
只有“苹果”和“橙子”使用big5,
"<product_name>"
和"</product_name>"
仍在使用utf-8。
<price>1.3</price>
和<price>1.2</price>
使用utf-8。
我如何知道哪个单词使用不同的编码?
最佳答案
看起来提供 XML 的人提供的 XML 不正确。他们应该使用一致的编码。
http://sourceforge.net/projects/jchardet/files/是一个非常好的启发式字符集检测器。 它是 Firefox 中使用的端口,用于检测内容类型或 BOM 中缺少字符集的页面的编码。
如果您无法让提供程序修复其输出,您可以使用它来尝试找出格式错误的 XML 文件中子字符串的编码。
关于java - 如何检查java中的编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4221454/