我尝试从浏览器读取源代码,但是当代码中包含 ã、á、à、õ 等字符时,我会得到 � 。
我已尝试申请java.nio.Charset.encode
在读取行上,但没有结果:发生同样的事情。
我的代码是:
URLConnection connection = ...;
BufferedReader reader = new BufferedReader(connection.getInputStream());
String s = null;
while ((s = reader.readLine()) != null) {
// got new source line...
}
我正在尝试阅读的网站是 this one (PT-BR)。
最佳答案
根据元标记,该页面上的字符集是 ISO-8859-1。尝试使用:
Scanner scanner = new Scanner(connection.getInputStream(), "ISO-8859-1");
关于java - 读取站点源: � characters,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15513189/