web-crawler - 如何设置只允许网站默认页面的robot.txt

标签 web-crawler bots robots.txt googlebot slurp

假设我在http://example.com上有一个网站。我真的很想让机器人看到主页,但是其他任何页面都需要阻止,因为它对蜘蛛毫无意义。换一种说法

http://example.comhttp://example.com/应该被允许,但是
http://example.com/anythinghttp://example.com/someendpoint.aspx应该被阻止。

此外,如果我可以允许某些查询字符串传递到主页,那就太好了:
http://example.com?okparam=true

但不是
http://example.com?anythingbutokparam=true

最佳答案

因此,经过一番研究,这就是我发现的-主要搜索提供商可以接受的解决方案:googleyahoo和msn(我可以在这里找到验证器):

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

诀窍是使用$标记URL的结尾。

关于web-crawler - 如何设置只允许网站默认页面的robot.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43427/

相关文章:

sharepoint - 带有更改日志 inremental 爬网的自定义 BCS 索引连接器无法正常工作

python - scrapy如何重复重复的请求

web-crawler - 保护电子邮件地址免受垃圾邮件机器人/网络爬虫的侵害

javascript - 阻止谷歌执行 javascript

html - 不允许在另一台服务器上的 iFrame 中的标签或服务器链接上没有 robots.txt 索引?

javascript - 如何使用 mechanize 更改网页上的标签

selenium - 如何阻止所有 Selenium 机器人?

javascript - Discordjs - 获取后 lastMessageId 始终为空事件

php - Google 忽略了我的 robots.txt

php - 通过 PHP 渲染纯文本