如何找到网站的sitemap.xml文件?
例如访问 stackoverflow/sitemap.xml 会得到 404。
在 stackoverflow/robots.txt 中写入以下内容:
"this technically isn't valid, since for some godforsaken reason sitemap paths must be ABSOLUTE and not relative. Sitemap: /sitemap.xml"
最佳答案
没有标准,所以没有保证。话虽如此,站点地图在根目录上进行 self 标记是很常见的,如下所示:
example.com/sitemap.xml
某些服务器上区分大小写,因此请记住这一点。如果不存在,请查看根目录下的 robots 文件:
example.com/robots.txt
如果您没有在 robots 文件中看到它,请前往 Google 并搜索:
站点:example.com 文件类型:xml
这会将结果限制为目标域上的 XML 文件。此时,它是基于您正在使用的网站的具体情况的反复试验。如果您从上面的 Google 搜索短语中获得了多页结果,请尝试进一步限制结果:
文件类型:xml 站点:example.com inurl:站点地图
或
文件类型:xml 站点:example.com inurl:产品
如果您仍然找不到它,您可以右键单击>“查看源代码”
并进行搜索(又名:“control find”或Ctrl + F
) 查找 .xml
以查看代码中是否有对其的引用。
关于web-crawler - 如何在网站上查找sitemap.xml路径?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10232774/