您好,想从源代码中提取 HTML 标签之间的字符串,但使用下面给出的代码时出现错误。有人可以帮我找出错误的原因吗?
Pattern pattern = Pattern.compile("/\<body[^>]*\>([^]*)\<\/body/");
Matcher matcher = pattern.matcher(s1);
while (matcher.find()) {
System.out.println( "Found value: " + matcher.group(1).trim() );
}
我收到的错误是:“无效的转义序列”
谢谢
最佳答案
不要使用正则表达式解析 html 文件。我建议您使用 jsoup
解析器。
String html = "<html><body><h1> Hello, World! </h1></body></html>";
Document doc = Jsoup.parse(html);
String text = doc.body().text();
System.out.println(text);
输出:
Hello, World!
关于java - 从 HTML 源中提取字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29727662/