web-crawler - 如何在网站上查找sitemap.xml路径?

标签 web-crawler sitemap

如何找到网站的sitemap.xml文件?

例如访问 stackoverflow/sitemap.xml 会得到 404。

在 stackoverflow/robots.txt 中写入以下内容:

"this technically isn't valid, since for some godforsaken reason sitemap paths must be ABSOLUTE and not relative. Sitemap: /sitemap.xml"

最佳答案

没有标准,所以没有保证。话虽如此,站点地图在根目录上进行 self 标记是很常见的,如下所示:

example.com/sitemap.xml

某些服务器上区分大小写,因此请记住这一点。如果不存在,请查看根目录下的 robots 文件:

example.com/robots.txt

如果您没有在 robots 文件中看到它,请前往 Google 并搜索:

站点:example.com 文件类型:xml

这会将结果限制为目标域上的 XML 文件。此时,它是基于您正在使用的网站的具体情况的反复试验。如果您从上面的 Google 搜索短语中获得了多页结果,请尝试进一步限制结果:

文件类型:xml 站点:example.com inurl:站点地图

文件类型:xml 站点:example.com inurl:产品

如果您仍然找不到它,您可以右键单击>“查看源代码”并进行搜索(又名:“control find”或Ctrl + F ) 查找 .xml 以查看代码中是否有对其的引用。

关于web-crawler - 如何在网站上查找sitemap.xml路径?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10232774/

相关文章:

python - 使用 urllib 而不是 twitter api 爬取 twitter

java - 如何添加异常以不在 java 中使用 jsoup 解析某些类型的文件?

tomcat - 如果 Tomcat 服务器具有多个 Web 应用程序,则将 sitemap.xml 和 robots.txt 放在哪里

c# - BuildSiteMap() 方法如何工作?

xml - 如何增加站点地图索引的数量

sharepoint - 文档库爬网

java - Web 挖掘或抓取或爬行?我应该使用什么工具/库?

python - Python3中方法has_key的替换

python - 如何编写 python scrapy 代码以提取站点站点地图中存在的 url

internationalization - 非重复网站上的 hreflang