java - 从 HTML 源中提取字符串

标签 java html string

您好,想从源代码中提取 HTML 标签之间的字符串,但使用下面给出的代码时出现错误。有人可以帮我找出错误的原因吗?

Pattern pattern = Pattern.compile("/\<body[^>]*\>([^]*)\<\/body/");
Matcher matcher = pattern.matcher(s1);
while (matcher.find()) {
  System.out.println( "Found value: " + matcher.group(1).trim() );
}

我收到的错误是:“无效的转义序列”

谢谢

最佳答案

不要使用正则表达式解析 html 文件。我建议您使用 jsoup 解析器。

String html = "<html><body><h1> Hello, World! </h1></body></html>";
Document doc = Jsoup.parse(html);
String text = doc.body().text();
System.out.println(text);

输出:

Hello, World!

关于java - 从 HTML 源中提取字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29727662/

相关文章:

java - 通过 SSH 连接的 Ant SCP 任务

javascript - 删除表格中按钮单元格之间的空间

html - CSS 媒体查询不显示/隐藏滚动条

string - Delphi XE2 AnsiFormat() 和 ANSI 字符串常量

java - 尝试使用 struts-jquery-tags 但遇到多个异常?

java - for 循环阻止我从数据库检索数据?

javascript - Window.innerHeight 与 Bootstrap 冲突

元音大写,辅音小写

c++ - vector 中的子串函数

java - 运行 EJB 示例项目时出现错误 500 : java. lang.NullPointerException