web-crawler - 如何测试 robots.txt 是否在本地主机上的本地 Web 服务器中工作?

标签 web-crawler localhost webserver search-engine

我将 robots.txt 文件添加到本地网络服务器的根目录。

服务器上 robots.txt 文件的 url 是 http://localhost/myserver/robots.txt

robots.txt文件的内容是

User-agent: *
Disallow: /

如何验证 robots.txt 文件是否适用于本地网络服务器?

我是否需要在本地安装一些网络爬虫或搜索引擎并运行它来验证?

谢谢。

最佳答案

How can I verify that the robots.txt file works for the local web server?

据我所知,robots.txt 文件不会阻止抓取工具抓取您的网站。它只是坚持不这样做。这意味着您无法验证这些作品是否存在。

相反,您可以而且应该验证的是,爬虫在访问您的网站时能够读取您的 robots.txt。您可以通过遵循约定来确保这一点。

这意味着您的 robots.txt 文件应该位于根路径下。 如果您打算在 xyz 域下托管您的网站,则应该是 http://xyz/robots.txt 的位置。

更多信息,查看this .

如果您的网站是在线的,您可以使用任何在线工具来验证 robots.txt 是否可以访问。一个这样的工具是 this .

关于web-crawler - 如何测试 robots.txt 是否在本地主机上的本地 Web 服务器中工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43787383/

相关文章:

java - 如何使用java获取DOM事件监听器

javascript - 未捕获的语法错误 : Unexpected token ILLEGAL

jsf - 我在 Tomcat 上的 JSF webapp 转到本地主机

css - 仅为本地开发更改样式表中的路径

http - 使用 nginx 真正记录 POST 请求正文(而不是 "-")

iis - SelfSSL 问题 - 2 个安全站点在具有 selfssl 证书的同一个盒子上运行

ruby - ruby 网络爬虫

web-crawler - 如何抓取我的网站以检测 404/500 错误?

javascript - Node JS 不显示缓冲区中的 UTF-8 字符

Tomcat maxThreads 是接受器线程或请求处理线程的配置