Java - 以编程方式获取与域名关联的每个网页

标签 java jsoup

我想制作一个程序,用户输入 URL,程序会响应该域名下关联的每个网页。现在,我正在使用 Jsoup 来获取每个 <a href>链接,但如果网站通过 AngularJS 或其他方式更改页面,则该链接并不总是覆盖网站上的每个网页。关于如何最好地做到这一点有什么建议吗?

最佳答案

为此您不需要 jsoup。只需导航到主机的 robots.txt

https://stackoverflow.com/robots.txt

并找到sitemap.xml

Sitemap: /sitemap.xml

对于 SO,theirs is cached在谷歌上:

cache:https://stackoverflow.com/sitemap.xml

这将包含网站希望公开的所有链接。或者在 SO 的情况下,需要扫描的其他站点地图列表。

https://stackoverflow.com/sitemap-questions-0.xml      
https://stackoverflow.com/sitemap-questions-1.xml 
https://stackoverflow.com/sitemap-questions-2.xml 
https://stackoverflow.com/sitemap-questions-3.xml 
https://stackoverflow.com/sitemap-questions-4.xml 
https://stackoverflow.com/sitemap-questions-5.xml 
https://stackoverflow.com/sitemap-questions-6.xml
....

关于Java - 以编程方式获取与域名关联的每个网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32299871/

相关文章:

java - 在MySQL中插入数据时出现 'java.sql.SQLSyntaxErrorException'错误如何解决?

java - 软件梯形校正算法

java - 如何使用 Jsoup 库获取对象的所有详细信息并将其保存到 bean 中?

java - 如何使用jsoup删除html文件开头的 header ?

java - Spring Security 和 Web 服务 session

java - Android:如何将界面从一个 Activity 发送到另一个 Activity

java - 获取图像 URL 时出现问题

java - 尝试解析被javascript隐藏的html

java - jsoup 不会提取仅电子邮件网站

java - Jsoup简单的HTML标签分割