java.net.URLDecoder 依赖源文件编码?

标签 java url encoding utf8-decode

我遇到了一个特殊的问题。我的 servlet 收到一个 urlencoded 字符串,从日志中我可以看出这个字符串是正确的。

我试过这个字符串:

"test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A"

如下:

"test 😎 1 ♧ ♢ ♡ ♤ 《"

然而,当我运行测试时,我得到的结果与我在服务器上得到的结果相同:

"test ? 1 ? ? ? ? ?"

转储我得到的十六进制代码

00: 74 65 73 74 20 3F 20 31  20 3F 20 3F 20 3F 20 3F | test ? 1  ? ? ? ? 
10: 20 3F -- -- -- -- -- --  -- -- -- -- -- -- -- -- |  ?                

我期望的地方:

00: 74 65 73 74 20 F0 9F 98  8E 20 31 20 E2 99 A7 20 | test ... . 1 ... 
10: E2 99 A2 20 E2 99 A1 20  E2 99 A4 20 E3 80 8A -- | ... ...  ... ...

现在是“有趣”的部分。这发生在我的服务器和我的 Eclipse IDE 上,但如果我随后将源文件保存为 UTF-8,URLDecoder 将返回正确的数据! 不过它对我的服务器没有帮助。

1:我看不出怎么会这样,URLDecoder 应该听取请求的编码。 2:我显然需要一个 java.net.URLDecoder 的替代品,如果它这样做,它就从根本上被破坏了。有什么建议么?

测试代码:

public class URLDecoderTest {
    public static void main(String[] args) {
        String reqMsg = "test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A";
        System.out.println("reqMsg      : " + reqMsg);
        try {
            reqMsg = URLDecoder.decode(reqMsg, "UTF-8");
        } catch (UnsupportedEncodingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        System.out.println("reqMsg      : " + reqMsg);
        System.out.println(HexTools.dump(reqMsg));
        System.out.println("Expected (fixed):");
        System.out.println("00: 74 65 73 74 20 F0 9F 98  8E 20 31 20 E2 99 A7 20 | test ... . 1 ... ");
        System.out.println("10: E2 99 A2 20 E2 99 A1 20  E2 99 A4 20 E3 80 8A -- | ... ...  ... ...");
    }
}

注意:HexTools 来自 Mobicents: http://code.google.com/p/mobicents/source/browse/trunk/commons/src/main/java/org/mobicents/commons/HexTools.java?r=21908

编辑: 查看 URLDecoder.decode 的源代码,它使用 new String(bytes, 0, pos, enc) 来解码字节。 由于某种原因失败,但是对于 unicode,new String(bytes, 0, pos) 工作正常。

Java 的 StringCoding 类中是否存在错误,无论传递给它什么,它都会自动回退到“默认”字符集? String调用的decode方法是一个静态的,它在调用decode之前在另一个静态方法中设置了请求的编码,然后将使用这个静态。换句话说:它不是线程安全的!!!

更新: 我在实现的几乎所有层中都遇到了问题。例如,Emoji 字符(4 字节 utf-8 字符)在 MySQL 上造成了麻烦。我从它那里得到了 asciified 字符,即使它被设置为 utf8。

结束语: 部分问题,或者实际上是感知到的问题,是由 HexTools.dump(String) 的误用引起的,HexTools.dump(String) 是一个为处理二进制数据而构建的类,其中甚至 String 的字符也只包含低字节中的数据。

为了将来引用,对 HexTools.dump 的调用应该是:

        System.out.println(HexTools.dump(reqMsg.getBytes("UTF-8")));

UnsupportedEncodingException 的 catch block 当然向下移动以覆盖该行。 这样做会返回一个与预期相同的十六进制框架。

最佳答案

此代码按预期工作:

import java.io.IOException;
import java.net.URLDecoder;

public class Dump {
  public static void main(String[] args) throws IOException {
    String reqMsg = 
         "test+%F0%9F%98%8E+1+%E2%99%A7+%E2%99%A2+%E2%99%A1+%E2%99%A4+%E3%80%8A";
    String decoded = URLDecoder.decode(reqMsg, "UTF-8");
    // UTF-16
    for (char ch : decoded.toCharArray()) {
      System.out.format("%04x ", (int) ch);
    }
    System.out.println();
    // UTF-8
    for (byte ch : decoded.getBytes("UTF-8")) {
      System.out.format("%02x ", 0xFF & ch);
    }
  }
}

但是,您可能会在此处丢失信息:

System.out.println

以上PrintStream将执行(可能有损)转码操作。来自文档:

All characters printed by a PrintStream are converted into bytes using the platform's default character encoding.

在许多系统上,Java 使用过时的遗留编码。

也可能是您的 servlet 容器配置错误。不确定最新版本是否如此,但 Tomcat 历来默认使用 ISO-8859-1 进行 URL 编码。

关于java.net.URLDecoder 依赖源文件编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20610561/

相关文章:

java - PHP 和 Java 中相同的字符串不相等

java - 安卓 : Step for Android connect to Laravel API

java - 使用 Jackson 反序列化枚举

javascript - 在 Javascript 中转义双连字符?

python - FastAPI动态多路径参数

javascript - 在浏览器中保存二进制数据,下载时无需进行 UTF8 编码

javascript - 这是奇怪的外来字符集还是编码问题?

java - Pragma Pack 使用 C 库导致 jvm 崩溃

java - 部署 JBoss EAP 6.4.0 时找不到standalone.xml 中提供的(远程)主机名

php - 在 MySQL 中保存图像 URL?