Java - 下载网页源 html 的最佳方式

标签 java download

我正在写一个小爬虫。下载网页源 html 的最佳方式是什么?我目前正在使用下面的一小段代码,但有时结果只是页面源代码的一半!!!我不知道出了什么问题。有人建议我应该使用 Jsoup,但是如果太长,使用 Jsoup 中的 .get.html() 函数也会返回一半的页面源代码。由于我是写爬虫的,方法支持unicode(UTF-8)很重要,效率也很重要。我想知道最好的现代方法,所以我问你们,因为我是 Java 的新手。谢谢。

代码:

public static String downloadPage(String url)
    {
        try
        {
            URL pageURL = new URL(url);
            StringBuilder text = new StringBuilder();
            Scanner scanner = new Scanner(pageURL.openStream(), "utf-8");
            try {
                while (scanner.hasNextLine()){
                    text.append(scanner.nextLine() + NL);
                }
            }
            finally{
                scanner.close();
            }
            return text.toString();
        }
        catch(Exception ex)
        {
            return null;
        }
    }

最佳答案

我使用 commons-io String html = IOUtils.toString(url.openStream(), "utf-8");

关于Java - 下载网页源 html 的最佳方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5861380/

相关文章:

javascript - 如何使用javascript下载doc文件

javascript - 如何设置动态创建的<audio>元素的默认下载文件名?

c# - 尝试使用 Entity Framework 从数据库下载大文件时出错

java - 如何在 Android Studio Java 中将数组上传到 Firestore 数据

java - 找不到无法解决类似问题的基本名称包

asp.net-mvc - ASP.NET MVC : returning plaintext file to download from controller method

swift - 如何使用 URLSession 下载图片?

java - 如何从字符串类型的键值对中获取值?

java - 使用jackson遍历json树

java - 如何将对象从主线程传递到java中的另一个线程