java - 如何提取HTML标签以仅获取某些信息？

我需要从<title> </title>之间提取网页的标题。标签。

还需要显示 <body...> 之间的所有文本和</body>标签，但主体之外没有任何内容。

我不想返回任何尖括号或任何 html 数据。

最佳答案

你可以使用类似的东西:

String html = "<html>My page</html>";
String title = html.substring(html.indexOf("<html>") + 6, html.indexOf("</html"));
System.out.println(title);

String.indexOf(string)方法返回给定字符串(变量 html)中字符串的起始索引(在示例中为 "<html>" 和 "</html>" )。

String.substring(int, int)方法返回两个索引之间的字符串。

这样，您就可以启动浏览器了。

关于java - 如何提取HTML标签以仅获取某些信息？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15077801/