java - 使用 Jsoup 获取特定类的所有 href 值

我试图解析我的大学网站，从主网站获取新闻列表(标题+链接)。然而，当我试图解析一个完整的网站时，我正在寻找的链接嵌套在其他类、表等的深处。这是我尝试使用的代码:

String url = "http://www.portal.pwr.wroc.pl/index,241.dhtml";
    Document doc = Jsoup.connect(url).get();
    Elements links = doc.select("table.cwrapper .tbody .tr td.ccol2 div.cwrapper_padd div#box_main_page_news.cbox.grey div#dyn_main_news.cbox.padd2 div.nitem table.nitemt .tbody .tr td.nitemcell2 span.title_1");
    ArrayList <String> listOfLinks = new ArrayList <String> ();
    int counter = 0;


    for (Element link : links) {

        listOfLinks.add(link.text());

    }

但是这不起作用。是否有更好的方法来获取所有这些链接的 href 值和标题(如果每个链接都放置在:

)

<span class = "title_1">
    <a href="Link Adress">Link Title</a>
</span>

也许某种循环会迭代所有这些标签，并从中获取值？

感谢您的帮助:-)

最佳答案

您的主要问题是您正在查找的信息不存在于您正在使用的 URL 中，而是存在于 http://www.portal.pwr.wroc.pl/box_main_page_news,241.dhtml?limit=10 处。 .
您应该首先获得该页面，然后使用它(它是 Hovercraft 和 Andrei volgon 答案的组合) -

String url = "http://www.portal.pwr.wroc.pl/box_main_page_news,241.dhtml?limit=10";
String baseURL = "http://www.portal.pwr.wroc.pl/";
Document doc = Jsoup.connect(url).get();
Elements links = doc.select(".title_1 > a");
for (Element link : links) {
    System.out.println("Title - " + link.text());
    System.out.println(baseURL + link.attr("href"));
}

关于java - 使用 Jsoup 获取特定类的所有 href 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39302242/

java - 使用 Jsoup 获取特定类的所有 href 值

上一篇：java - Maven 聚合两个不同的 Pom？

下一篇：java - 检查映射是否包含键或仅输入该值更快吗？