java - 如何提取HTML标签以仅获取某些信息?

标签 java html string extract

我需要从<title> </title>之间提取网页的标题。标签。

还需要显示 <body...> 之间的所有文本和</body>标签,但主体之外没有任何内容。

我不想返回任何尖括号或任何 html 数据。

最佳答案

你可以使用类似的东西:

String html = "<html>My page</html>";
String title = html.substring(html.indexOf("<html>") + 6, html.indexOf("</html"));
System.out.println(title);

String.indexOf(string)方法返回给定字符串(变量 html)中字符串的起始索引(在示例中为 "<html>""</html>" )。

String.substring(int, int)方法返回两个索引之间的字符串。

这样,您就可以启动浏览器了。

关于java - 如何提取HTML标签以仅获取某些信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15077801/

相关文章:

javascript - 如何使用 "JavaScript Switch Statement"重定向用户

string - 在 Perl 中,如何将整个文件读入字符串?

java - 验证用户输入字符串

java - 从 BackendlessUser getProperty() 获取零个对象

java - Firebird + JDBC : Getting the generated key from an insert

javascript - 如何编写在Chrome和IE中正常运行的JavaScript?

html - 为什么 charset=utf-8 在某些服务器上不起作用?

python - 使用正则表达式分组将字符串转换为字典

java - 使用for循环和字符串数组时出错

java - Realm java查询条件