Java - 下载网页源 html 的最佳方式

标签 java download

我正在写一个小爬虫。下载网页源 html 的最佳方式是什么？我目前正在使用下面的一小段代码，但有时结果只是页面源代码的一半!!!我不知道出了什么问题。有人建议我应该使用 Jsoup，但是如果太长，使用 Jsoup 中的 .get.html() 函数也会返回一半的页面源代码。由于我是写爬虫的，方法支持unicode(UTF-8)很重要，效率也很重要。我想知道最好的现代方法，所以我问你们，因为我是 Java 的新手。谢谢。

代码:

public static String downloadPage(String url)
    {
        try
        {
            URL pageURL = new URL(url);
            StringBuilder text = new StringBuilder();
            Scanner scanner = new Scanner(pageURL.openStream(), "utf-8");
            try {
                while (scanner.hasNextLine()){
                    text.append(scanner.nextLine() + NL);
                }
            }
            finally{
                scanner.close();
            }
            return text.toString();
        }
        catch(Exception ex)
        {
            return null;
        }
    }

最佳答案

我使用 commons-io String html = IOUtils.toString(url.openStream(), "utf-8");

关于Java - 下载网页源 html 的最佳方式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5861380/

上一篇：java - 无法在 Java 中创建 7M Long 类型变量的 LinkedList

下一篇：java - 找不到 org.springframework.web.servlet.DispatcherServlet 类

相关文章：

javascript - 如何使用javascript下载doc文件

javascript - 如何设置动态创建的<audio>元素的默认下载文件名？

c# - 尝试使用 Entity Framework 从数据库下载大文件时出错

java - 如何在 Android Studio Java 中将数组上传到 Firestore 数据

java - 找不到无法解决类似问题的基本名称包

asp.net-mvc - ASP.NET MVC : returning plaintext file to download from controller method

swift - 如何使用 URLSession 下载图片？

java - 如何从字符串类型的键值对中获取值？

java - 使用jackson遍历json树

java - 如何将对象从主线程传递到java中的另一个线程