我想构建一个网络爬虫来抓取一些网站站点地图。我遇到过这种格式几次 https://developer.mozilla.org/sitemap.xml .我想知道这是标准还是有标准。
如果没有,抓取站点地图的最佳方式是什么?正则表达式还是某个库?
最佳答案
我认为您应该为此使用 DOM API。那里解释了站点地图格式 http://www.sitemaps.org/protocol.html
关于java - 是否有标准化的站点地图格式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15002683/