我只想获取java语言的网页源码,我只想获取正确编码类型的内容。到目前为止,我能够获取网页的内容。但对于某些网页,内容带有荒谬的字符。所以我需要检测该网页的字符集。
根据我的一些研究,我发现有一个 jChardet 库可以执行此操作。但是我无法将它导入到我的项目中。有人可以帮帮我吗?
顺便说下下面的代码是读取网页内容的代码
StringBuilder builder = new StringBuilder();
InputStream is = fURL.openStream();
BufferedReader buffer = null;
buffer = new BufferedReader(new InputStreamReader(is, encodingType));
int byteRead;
while ((byteRead = buffer.read()) != -1) {
builder.append((char) byteRead);
}
buffer.close();
return builder;
最佳答案
读取 HTTP 响应的 Content-Type
header ,这是获取字符集的最佳方式。仅在您别无选择时才应用猜测 - 您确实如此。
关于java - 如何检测网页的字符集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8636215/