假设我在http://example.com上有一个网站。我真的很想让机器人看到主页,但是其他任何页面都需要阻止,因为它对蜘蛛毫无意义。换一种说法
http://example.com和http://example.com/应该被允许,但是
http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。
此外,如果我可以允许某些查询字符串传递到主页,那就太好了:
http://example.com?okparam=true
但不是
http://example.com?anythingbutokparam=true
最佳答案
因此,经过一番研究,这就是我发现的-主要搜索提供商可以接受的解决方案:google,yahoo和msn(我可以在这里找到验证器):
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$
诀窍是使用$标记URL的结尾。
关于web-crawler - 如何设置只允许网站默认页面的robot.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43427/