使用 python 请求模块(获取函数)我正在抓取链接,即爬虫。我使用该脚本发出多个请求。由于我提出了太多请求,谷歌通过验证码进行了干预,该验证码在一段时间后被重置。我使用时间模块在每次请求后使代码休眠一段时间以避免它。我想知道什么时候让脚本进入休眠状态,这样谷歌就不会将其视为无效流量? (我使用的是大学代理服务器)
最佳答案
我发现这个网站对于正确的抓取非常有帮助:h
- https://www.scrapehero.com/how-to-prevent-getting-blacklisted-while-scraping/
- https://webscraping.com/blog/How-to-crawl-websites-without-being-blocked/
享受吧!
关于python - python中请求之间的适当时间?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42954422/