web-crawler - 如何测试 robots.txt 是否在本地主机上的本地 Web 服务器中工作？

我将 robots.txt 文件添加到本地网络服务器的根目录。

服务器上 robots.txt 文件的 url 是 http://localhost/myserver/robots.txt。

robots.txt文件的内容是

User-agent: *
Disallow: /

如何验证 robots.txt 文件是否适用于本地网络服务器？

我是否需要在本地安装一些网络爬虫或搜索引擎并运行它来验证？

谢谢。

最佳答案

How can I verify that the robots.txt file works for the local web server?

据我所知，robots.txt 文件不会阻止抓取工具抓取您的网站。它只是坚持不这样做。这意味着您无法验证这些作品是否存在。

相反，您可以而且应该验证的是，爬虫在访问您的网站时能够读取您的 robots.txt。您可以通过遵循约定来确保这一点。

这意味着您的 robots.txt 文件应该位于根路径下。如果您打算在 xyz 域下托管您的网站，则应该是 http://xyz/robots.txt 的位置。

更多信息，查看this .

如果您的网站是在线的，您可以使用任何在线工具来验证 robots.txt 是否可以访问。一个这样的工具是 this .

关于web-crawler - 如何测试 robots.txt 是否在本地主机上的本地 Web 服务器中工作？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43787383/

相关文章：

java - 如何使用java获取DOM事件监听器