web-crawler - 如何在网站上查找sitemap.xml路径？

如何找到网站的sitemap.xml文件？

例如访问 stackoverflow/sitemap.xml 会得到 404。

在 stackoverflow/robots.txt 中写入以下内容:

"this technically isn't valid, since for some godforsaken reason sitemap paths must be ABSOLUTE and not relative. Sitemap: /sitemap.xml"

最佳答案

没有标准，所以没有保证。话虽如此，站点地图在根目录上进行 self 标记是很常见的，如下所示:

example.com/sitemap.xml

某些服务器上区分大小写，因此请记住这一点。如果不存在，请查看根目录下的 robots 文件:

example.com/robots.txt

如果您没有在 robots 文件中看到它，请前往 Google 并搜索:

站点:example.com 文件类型:xml

这会将结果限制为目标域上的 XML 文件。此时，它是基于您正在使用的网站的具体情况的反复试验。如果您从上面的 Google 搜索短语中获得了多页结果，请尝试进一步限制结果:

文件类型:xml 站点:example.com inurl:站点地图

或

文件类型:xml 站点:example.com inurl:产品

如果您仍然找不到它，您可以右键单击>“查看源代码”并进行搜索(又名:“control find”或Ctrl + F ) 查找 .xml 以查看代码中是否有对其的引用。

关于web-crawler - 如何在网站上查找sitemap.xml路径？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10232774/