我有一个带有下拉列表的 ASP.NET MVC 网站,当用户在第一个下拉列表中选择一个选项时,其他下拉列表将使用 AJAX 调用填充。根据日志,爬虫尝试正常访问这些 AJAX 方法,因此我的应用程序会记录错误。我将这些 AJAX 方法设置为不可抓取,这意味着当请求不是 AJAX 调用时我返回 404。这是最好的方法吗? 另一方面,我有一个包含多个步骤的页面,这意味着用户填写一个表单然后进入第二个步骤。每次用户填写表单时,我都会执行 POST AJAX 请求并保存输入数据。我应该如何处理这种情况?
最佳答案
将您不想抓取的 URL 添加到 robots.txt
.
如果您在 GET
表单中提供链接,爬虫将尝试抓取它。返回 404
在技术上是不正确的 - 它确实可以阻止爬虫将页面编入索引!
考虑返回 500 Internal Server Error
或 501 Not Implemented
。
关于ajax - 抓取 AJAX 请求,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26715892/