我想制作一个程序,用户输入 URL,程序会响应该域名下关联的每个网页。现在,我正在使用 Jsoup 来获取每个 <a href>
链接,但如果网站通过 AngularJS 或其他方式更改页面,则该链接并不总是覆盖网站上的每个网页。关于如何最好地做到这一点有什么建议吗?
最佳答案
为此您不需要 jsoup。只需导航到主机的 robots.txt
https://stackoverflow.com/robots.txt
并找到sitemap.xml
。
Sitemap: /sitemap.xml
对于 SO,theirs is cached在谷歌上:
cache:https://stackoverflow.com/sitemap.xml
这将包含网站希望公开的所有链接。或者在 SO 的情况下,需要扫描的其他站点地图列表。
https://stackoverflow.com/sitemap-questions-0.xml
https://stackoverflow.com/sitemap-questions-1.xml
https://stackoverflow.com/sitemap-questions-2.xml
https://stackoverflow.com/sitemap-questions-3.xml
https://stackoverflow.com/sitemap-questions-4.xml
https://stackoverflow.com/sitemap-questions-5.xml
https://stackoverflow.com/sitemap-questions-6.xml
....
关于Java - 以编程方式获取与域名关联的每个网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32299871/