我正在使用 JSoup 来解析一个 gb2312 字符集页面: http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html
源代码:
String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html";
Document doc=Jsoup.connect(testURL).get();
System.out.println(
doc.select("div").html()
);
这给出了以下输出:
1:? 2:� 3:� 4:—
我想得到相同的页面源代码:
1:· 2:慒 3:啰 4:—
有什么办法可以做到这一点吗?
最佳答案
尝试设置 doc.outputSettings().escapeMode(EscapeMode.xhtml)
或更改输出 charset打印前。
另见(微不足道的)documentation for EscapeMode
.
关于java - jsoup 输出编码问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8793344/