我有一个页面源,我想获取其所有 anchor 标记的 anchor 文本
有人可以帮我设计一下它的模式吗?
提前致谢
最佳答案
karim79 是对的,正则表达式可能是错误的方式,但无论如何,这里有一种可以在 Java 中完成的简单方法。请注意,如果 anchor 在 href 之前具有其他属性,则这将不起作用。不过,这可能是一个好的开始,或者可以帮助您了解如何做到这一点。
String html = "<body>" +
"<a href=\"#first\">got to first</a>" +
"<span>something else</span>" +
"<a href=\"#second\">got to second</a>" +
"</body>";
Pattern pattern = Pattern.compile("<a href=\"#(\\w+)\">([\\w\\s]+)</a>");
Matcher matcher = pattern.matcher(html);
while(matcher.find()){
System.out.println(matcher.group(2));
}
关于Java正则表达式模式获取 anchor 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3776939/