我正在写一个小爬虫。下载网页源 html 的最佳方式是什么?我目前正在使用下面的一小段代码,但有时结果只是页面源代码的一半!!!我不知道出了什么问题。有人建议我应该使用 Jsoup,但是如果太长,使用 Jsoup 中的 .get.html() 函数也会返回一半的页面源代码。由于我是写爬虫的,方法支持unicode(UTF-8)很重要,效率也很重要。我想知道最好的现代方法,所以我问你们,因为我是 Java 的新手。谢谢。
代码:
public static String downloadPage(String url)
{
try
{
URL pageURL = new URL(url);
StringBuilder text = new StringBuilder();
Scanner scanner = new Scanner(pageURL.openStream(), "utf-8");
try {
while (scanner.hasNextLine()){
text.append(scanner.nextLine() + NL);
}
}
finally{
scanner.close();
}
return text.toString();
}
catch(Exception ex)
{
return null;
}
}
最佳答案
我使用 commons-io String html = IOUtils.toString(url.openStream(), "utf-8");
关于Java - 下载网页源 html 的最佳方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5861380/