ajax - 抓取 AJAX 请求

标签 ajax seo web-crawler

我有一个带有下拉列表的 ASP.NET MVC 网站,当用户在第一个下拉列表中选择一个选项时,其他下拉列表将使用 AJAX 调用填充。根据日志,爬虫尝试正常访问这些 AJAX 方法,因此我的应用程序会记录错误。我将这些 AJAX 方法设置为不可抓取,这意味着当请求不是 AJAX 调用时我返回 404。这是最好的方法吗? 另一方面,我有一个包含多个步骤的页面,这意味着用户填写一个表单然后进入第二个步骤。每次用户填写表单时,我都会执行 POST AJAX 请求并保存输入数据。我应该如何处理这种情况?

最佳答案

将您不想抓取的 URL 添加到 robots.txt .

如果您在 GET 表单中提供链接,爬虫将尝试抓取它。返回 404 在技术上是不正确的 - 它确实可以阻止爬虫将页面编入索引!

考虑返回 500 Internal Server Error501 Not Implemented

关于ajax - 抓取 AJAX 请求,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26715892/

相关文章:

seo - 我可以使用动态 Schema.org 标记构建我的 html 吗?

seo - 标签云 For google 站长工具

redirect - 301重定向和/index.php

perl - 如何使用 Perl Dancer 服务 robots.txt

ajax - 在 grails 中显示加载时间的 ajax 调用中的 spinner.gif

javascript - jQuery 的 `getScript` 失败。路径正确,脚本下载正确。

c# - 来自 ASP.NET MVC Ajax 表单的 HTTP POST 不包含提交按钮

javascript - 不使用 ajax 发送自定义 header

python - 使用 Python 检查响应时间、长度和 URL 状态(获取代码 200,404 等)

node.js - 如何使用 Headless Chrome Crawler 抓取整个网站?