web-crawler - 如何设置只允许网站默认页面的robot.txt

假设我在http://example.com上有一个网站。我真的很想让机器人看到主页，但是其他任何页面都需要阻止，因为它对蜘蛛毫无意义。换一种说法

http://example.com和http://example.com/应该被允许，但是
http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。

此外，如果我可以允许某些查询字符串传递到主页，那就太好了:
http://example.com?okparam=true

但不是
http://example.com?anythingbutokparam=true

最佳答案

因此，经过一番研究，这就是我发现的-主要搜索提供商可以接受的解决方案:google，yahoo和msn(我可以在这里找到验证器):

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

诀窍是使用$标记URL的结尾。

关于web-crawler - 如何设置只允许网站默认页面的robot.txt，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43427/