java - jsoup 输出编码问题

标签 java jsoup

我正在使用 JSoup 来解析一个 gb2312 字符集页面: http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html

源代码:

String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html";
Document doc=Jsoup.connect(testURL).get();          
System.out.println(
    doc.select("div").html()
);

这给出了以下输出:

1:? 2:� 3:� 4:—

我想得到相同的页面源代码:

1:· 2:慒 3:啰 4:—

有什么办法可以做到这一点吗?

最佳答案

尝试设置 doc.outputSettings().escapeMode(EscapeMode.xhtml)或更改输出 charset打印前。

另见(微不足道的)documentation for EscapeMode .

关于java - jsoup 输出编码问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8793344/

相关文章:

java - 为什么 java.lang.Integer 不扩展 java.lang.Long?

Java JSoup : Modifying URL

java - 在 Jsoup 中,是否可以从元素列表中获取元素而无需遍历它?

java - JSoup 抓取 - 尝试一次从 70 页抓取数据,但我的循环不起作用

java - 在 MAC 上运行 wiremock.jar 时出现 "Failed to load class org.slf4j.impl.StaticLoggerBinder"错误

java - 如何管理多个 Android 库项目的公共(public)依赖项?

java - JSoup 格式错误的 URL 异常

java - RecyclerView 没有更新 OnPostExecute() 上的项目

java - 仅删除不是单词开头的元音

java - 如何停止Java中的不间断线程