我正在使用 Jsoup。
我执行 get document= connect.get();
并获取 html 页面。
现在我将其写入文本(字符串)。
我有填充这些页面的用户。 我知道每个用户名。这些页面有用户名。 我可以执行 string.contains("username") 来检查用户是否存在。
现在我的问题是: 我有一些用户的名字是
表格
有序列表
无序列表
在正文
但在所有这些情况下,它们的格式如下:示例
<li><a href="http://university.xxx.students.com/grade9/john/117429">2012 academic record</a></li>
一些在表中,全部..
在示例中,我知道学生姓名 = john。 我怎样才能获得所有的网址?
==
最佳答案
您可以使用正则表达式:
Elements elements = document.select("[href~=(?is)http://university\\.xxx\\.students\\.com/grade9/(.+?)/[0 -9]+?]")
更抽象:document.select("a[href~=regex]")
如果您已经知道名称,可以替换(.+?)
,例如:
Elements elements = document.select("[href~=(?is)http://university\\.xxx\\.students\\.com/grade9/"+ name + "/[0 -9]+?]")
关于java - 从网站获取超链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12275109/