web-crawler - 我实际抓取网站的速度有多快？

标签 web-crawler

我要爬一个网站以获取一些信息。它大约有 170 000 多页。那么，我可以提出多少请求？我要提取直到 HTML 并获取一些信息。这是一个已经很受欢迎的网站，所以我认为如果只是快速浏览所有页面它不会死...唯一让我紧张的是我不知道所有者是否会阻止我的IP或其他什么如果你这样做？这是正常的吗？我应该只加载 5 页/分钟吗？然后它将永远......我想每 24 小时获取一次新数据。

谢谢大家的回复!

最佳答案

这需要一些时间，实际上我建议您使用轮换代理，并添加多线程。 10个线程就可以了。这样，您可以同时有 10 个请求。但是使用代理会很慢，并且每个请求添加至少 1.5 秒的超时，它会减慢您的速度，但会降低被禁止的风险。

关于web-crawler - 我实际抓取网站的速度有多快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4395319/

上一篇：visual-studio-2010 - Azman 64 位使用 VS2010 : BadImageFormatException

下一篇：sql从分页中获取列表

python - Scrapy CrawlSpider 不会退出

html - 使用 scrapy 跟踪 HTML 中的标签

python - Scrapy:下载器/response_count 与 response_received_count

php - 如何从返回 403 Forbidden 的站点的 PHP 中获取 URL 的标题

javascript - 如何阻止机器人抓取我基于 AJAX 的 URL？

python - Scrapy + Python，从网站查找链接时出错

python - 从主页中提取的新页面中提取文本

python - 未调用 Scrapy parse_item 回调

python - 无法让 BeautifulSoup 仅返回 h3 类中的电影标题和分数