java - 使用 JSoup 解析 HTML

我正在尝试解析以下 URL 的 html:

http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/

获取包含教师姓名的“

”标签的文本。所需信息位于“< p >”标签内，但我无法使用 JSoup 检索标签。我不知道我做错了什么，因为当我将标签保存在 Element 对象中时，我们称它为“b”，我调用 b.getAllElements() 它不显示

作为元素之一.这不是 Jsoup 的 getAllElements() 方法所做的吗？如果没有，请有人向我解释我显然缺少的层次结构，因为解析器无法找到包含我需要的文本的

标签，在这种情况下是“Zoltan Spakovszky 教授” .

如有任何帮助，我们将不胜感激。

public void getHomePageLinks()
{
    String html = "http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/";
    org.jsoup.nodes.Document doc = Jsoup.parse(html);

    Elements bodies = doc.select("body");

    for(Element body : bodies )
    {
        System.out.println(body.getAllElements());
    }

}

输出是:

http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/

不是应该打印出文档中body标签内的所有元素吗？

最佳答案

我对 JSoup 一无所知，但似乎如果你想要讲师的名字，你可以通过类似的方式访问它:

Element instructor = doc.select("div.chpstaff div p");

关于java - 使用 JSoup 解析 HTML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12361925/

上一篇：java、正则表达式和简单的 html 嵌套 : unable to get inside text

下一篇：html css 2列布局，两列自动高度相同？

java逆变疑问

javascript - 如何从 url 获取动态页面

javascript - 使用 jQuery 或纯 JavaScript 的 html 子字符串

c# - 将 HTML 文件读入内存中的字符串变量

java - IBATIS 2.0 动态设置表名

java - 使用 Java 通过 HTTP 请求获取位短 url 重定向到的 url

C# 控制台应用程序代码在等待后不执行

html - 在 Django 服务器端访问 HTML 数组输入字段值时出现问题

python - 如何使用 beautiful soup python 获得多个标题