java - 在 Jsoup 中再次将原始 html 字符串拆分为行

因此，我从网站中提取了原始 html 代码，但它全部放在一个字符串中，我想将其分成几行，就像 google chrome 上的“查看页面源代码”一样。

这是我的代码。

字符串 url = "https://stratechery.com/2016/how-google-cloud-platform-is-challenging-aws/ "; //crawl(url,"更多完整鞋类.txt",9000);

    System.out.println(br2nl(url));
    Document doc = Jsoup.connect(url)
            .data("query", "Java")
            .userAgent("Mozilla")
            .cookie("auth", "token")
            .timeout(3000)
            .post();
    String rawhtml =doc.toString();
     String lines[] = rawhtml.split("\""+" ");

我尝试根据引号和空格拆分“rawhtml”字符串，但它们遍布每一行，因此它会在各处进行拆分。

最佳答案

我认为您可能没有捕获 Jsoup 的要点。

您不必自己逐行进行解析，Jsoup 有方法可以做到这一点。 HTML 已在您创建的 JSOUP 文档中进行解析。您现在可以逐个或以分组方式访问其元素。可能性是无限的，请查看官方文档:https://jsoup.org/cookbook/

为了回答你的问题，要按换行符分割整个 HTML 字符串，你可以这样做:

public class JsoupTest {

  public static void main(String[] args) throws IOException {

    String url = "https://stratechery.com/2016/how-google-cloud-platform-is-challenging-aws/";

    Document doc = Jsoup.connect(url)
        .userAgent("Mozilla")
        .get();

    for (String s : doc.toString().split("\\n")) {
      System.out.println(s);
    }
  }
}

关于java - 在 Jsoup 中再次将原始 html 字符串拆分为行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40909450/

java - 在 Jsoup 中再次将原始 html 字符串拆分为行

上一篇：Netty客户端的Java输入

下一篇：java - MultitenantConfiguration : No qualifying bean of type [javax. persistence.EntityManagerFactory] 已定义:预期有单个匹配 bean，但发现 2

java - 在 Jsoup 中再次将原始 html 字符串拆分为行

上一篇：Netty客户端的Java输入

下一篇：java - MultitenantConfiguration : No qualifying bean of type [javax. persistence.EntityManagerFactory] ​​已定义:预期有单个匹配 bean，但发现 2

下一篇：java - MultitenantConfiguration : No qualifying bean of type [javax. persistence.EntityManagerFactory] 已定义:预期有单个匹配 bean，但发现 2