java - 读取站点源: � characters

标签 java string url inputstream bufferedreader

我尝试从浏览器读取源代码,但是当代码中包含 ã、á、à、õ 等字符时,我会得到 � 。

我已尝试申请java.nio.Charset.encode在读取行上,但没有结果:发生同样的事情。

我的代码是:

URLConnection connection = ...;
BufferedReader reader = new BufferedReader(connection.getInputStream());
String s = null;

while ((s = reader.readLine()) != null) {
  // got new source line...
}

我正在尝试阅读的网站是 this one (PT-BR)。

最佳答案

根据元标记,该页面上的字符集是 ISO-8859-1。尝试使用:

Scanner scanner = new Scanner(connection.getInputStream(), "ISO-8859-1");

关于java - 读取站点源: � characters,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15513189/

相关文章:

java - 无需中介即可从网络服务器打印到热敏打印机

python - 使用 setattr() 将字符串转换为变量

java - 检查正则表达式中字符串是否以点后两位数字结尾?

javascript - 在 Gatsby 的 404 页面上显示 URL

javascript - 修复 Javascript 无效的正则表达式 : Invalid Group

java - DuplicateMappingException 表 [] 包含由多个逻辑列名称引用的物理列名称 [] : [_id], [Id]

java - 什么是正确的正则表达式?

ajax - Google 使用 # 而不是搜索?在网址中。为什么?

java - 通过局域网调用其他java应用程序的方法

c# - 字符串插值