html - 如何阻止机器人抓取或索引 Angular 应用程序

标签 html angular robots.txt

我想发布一个用于测试目的的 Angular 应用程序,但我想确保该网站不会被机器人抓取或编入索引。

我假设(可能会很远!)我会添加我的 <meta>标签只是在我的 index.html 页面上,并且为了更好地在我的根目录中添加一个 robots.txt 文件?

这些是我的元标签:

<meta name="robots" content="noindex,nofollow">
<meta name="googlebot" content="noindex" />

这是我的 robots.txt 文件的内容:
User-agent: *
Disallow: /

先感谢您!

最佳答案

使用您指定的 robots.txt 文件足以防止您的网站被遵循 robots exclusion standard 的机器人编入索引。 .使用这个 robots.txt,您不需要指定元标题,因为机器人首先读取 robots.txt 并且不会解析网站的 HTML 来读取元标记。

当您的 robots.txt 文件通常允许索引该页面,但您希望在页面级别排除它时,将使用元标记,这样可以进行更精细的选择。

请注意,一些不常见的爬虫可能不遵守排除标准。如果您真的想限制对测试站点的访问,则应考虑仅在身份验证后才能访问它或仅允许访问某些 IP 地址。

关于html - 如何阻止机器人抓取或索引 Angular 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58588175/

相关文章:

robots.txt - 使用 robots.txt 从搜索引擎隐藏文件夹和子文件夹的正确语法

html - 刷新时需要重置单选按钮

php - 如何使用 preg_replace 替换 HTML 元素内的所有空格?

favicon - 有什么理由不在favicon.ico,apple-touch-icon和robots.txt上执行301吗?

reactjs - Lighthouse 读取我的索引而不是 robots.txt

angular - 在 Angular2 中登录后刷新标题

html - Foundation 上的全高柱

javascript - 使用当前页面 URL 自动填充文本字段值

node.js - Angular 5 HttpClient 响应 header 不包含自定义 header

typescript - 输入字段不重置值 - AngularJS 2