python - 从 url 列表中下载 <very large> 页面的最佳方法是什么?

标签 python multithreading multiprocessing scrapy web-crawler

我在列表中有 >100,000 个 url(不同的域),我想下载这些 url 并将其保存在数据库中以供进一步处理和修补。

使用 scrapy 代替 python 的多处理/多线程是否明智?如果是,我该如何编写独立脚本来执行相同的操作?

此外,请随时提出您想到的其他很棒的方法。

最佳答案

如果您非常了解要获取的 URL(此处不涉及爬行),那么 Scrapy 在这里似乎并不相关。

想到的最简单的方法是使用 Requests .但是,按顺序查询每个 URL 并阻止等待答案效率不高,因此您可以考虑 GRequests异步发送批量请求。

关于python - 从 url 列表中下载 <very large> 页面的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16957276/

相关文章:

python - Python中的分布式多处理池

Python多处理池apply_async错误

python - 使用 BeautifulSoup 查找嵌套标签的原始位置

python - Python中Spark RDD的列操作

python - 按条件标准化条件单变量seaborn

java - Spring - 如何运行一系列线程并等待它们完成后再完成?

java - 通过外部切换标志来运行线程(从 GUI)

python - 最佳数量的进程可同时写入大量文件

python - 如何将EC2 ip地址动态添加到Django ALLOWED_HOSTS

android - 如何检查是否在GUI线程: Android [duplicate]中执行了回调