html - 如何防止搜索引擎对一段文本建立索引?

标签 html web-crawler robots.txt googlebot noindex

来自the information I have been able to find so far , <noindex>应该实现这一点,使页面的单个部分对搜索引擎蜘蛛隐藏。但似乎许多浏览器都没有遵守这一点 - 那么如果是这样的话,除了它之外还应该使用什么标记来代替/?

  • Yahoo 使用内置类:<span class="robots-nocontent">
  • Googlebot 没有同等功能(?)
  • Yandex 使用 <noindex>
  • 其他人?

最佳答案

没有办法阻止爬虫对任何内容建立索引,爬虫将做什么由其作者决定。遵守规则的,如 Yahoo Slurp、Googlebot 等。正如您已经发现的那样,它们每个都有自己的规则,但是否完全遵守规则仍然取决于它们 - 假设您设置了 robots-nocontent 但该部分仍然被索引并放在其他地方,可能用于检查垃圾邮件、非法 Material 、恶意软件等。

这只是针对“好”的,不知道坏的会做什么。因此,请将所有 noindex 内容视为一组指导方针,而不是一组严格的规则。

唯一可以肯定的是:如果您有敏感数据,或者您只是不想将某些内容编入索引 - 不要将其公开

关于html - 如何防止搜索引擎对一段文本建立索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29058530/

相关文章:

javascript - 附加到动态内容

html - 在 100% 宽度的 div 上创建内部面板需要什么 CSS

php - 如何从返回 403 Forbidden 的站点的 PHP 中获取 URL 的标题

linux - 如何使用 wget 从它的 src 抓取不同类型的图像?

google-analytics - 如何在Google Analytics(分析)中分割和过滤机器人流量?

html - 当不适合他们的持有人时如何缩小文本?

asp.net - View 模型上的类型更改后, Razor View 上出现 MissingMethodException

python - 如何避免爬虫中的重复

python - django 有效地服务 robots.txt

seo - 允许抓取外部 Javascript 文件