Java 如何确定用于 System.out
的编码?
给定以下类:
import java.io.File;
import java.io.PrintWriter;
public class Foo
{
public static void main(String[] args) throws Exception
{
String s = "xxäñxx";
System.out.println(s);
PrintWriter out = new PrintWriter(new File("test.txt"), "UTF-8");
out.println(s);
out.close();
}
}
保存为UTF-8,在Windows系统下用javac -encoding UTF-8 Foo.java
编译
然后在 git-bash 控制台上(使用 UTF-8 字符集)我做:
$ java Foo
xxõ±xx
$ java -Dfile.encoding=UTF-8 Foo
xxäñxx
$ cat test.txt
xxäñxx
$ java Foo | cat
xxäñxx
$ java -Dfile.encoding=UTF-8 Foo | cat
xxäñxx
这是怎么回事?
显然,java 会检查它是否连接到终端,并在这种情况下更改其编码。有没有办法强制 Java 简单地输出纯 UTF-8?
我也对 cmd 控制台进行了同样的尝试。重定向 STDOUT 似乎没有任何区别。没有 file.encoding 参数它输出 ansi 编码,参数它输出 utf8 编码。
最佳答案
我假设您的控制台仍在 cmd.exe 下运行。我怀疑您的控制台是否真的需要 UTF-8 - 我希望它真的是 OEM DOS 编码(例如 850 or 437 。)
Java 将使用 default encoding 编码字节在 JVM 初始化期间设置。
在我的电脑上复制:
java Foo
Java编码为windows-1252;控制台解码为 IBM850。结果:Mojibake
java -Dfile.encoding=UTF-8 Foo
Java编码为UTF-8;控制台解码为 IBM850。结果:Mojibake
cat test.txt
cat 将文件解码为 UTF-8; cat 编码为 IBM850;控制台解码为 IBM850。
java Foo | cat
Java编码为windows-1252; cat 解码为 windows-1252; cat 编码为 IBM850;控制台解码为 IBM850
java -Dfile.encoding=UTF-8 Foo | cat
Java编码为UTF-8; cat 解码为 UTF-8; cat 编码为 IBM850;控制台解码为 IBM850
cat 的这种实现必须使用启发式方法来确定字符数据是否为 UTF-8,然后将数据从 UTF-8 或 ANSI(例如 windows-1252)转码到控制台编码(例如 IBM850。)
这可以通过以下命令确认:
$ java HexDump utf8.txt
78 78 c3 a4 c3 b1 78 78
$ cat utf8.txt
xxäñxx
$ java HexDump ansi.txt
78 78 e4 f1 78 78
$ cat ansi.txt
xxäñxx
cat 命令可以做出此决定,因为 e4 f1
不是有效的 UTF-8 序列。
您可以通过以下方式更正 Java 输出:
- Setting the console encoding到系统 ANSI 值
- 使用Console类型
- 使用一些 shiv layer就像你对 cat 所做的那样
HexDump 是一个简单的 Java 应用程序:
import java.io.*;
class HexDump {
public static void main(String[] args) throws IOException {
try (InputStream in = new FileInputStream(args[0])) {
int r;
while((r = in.read()) != -1) {
System.out.format("%02x ", 0xFF & r);
}
System.out.println();
}
}
}
关于java - java控制台输出的默认字符编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24803733/