python - 如何让我的线程池更好地处理请求

我目前有这个函数，它执行 api 调用，每个 api 调用都请求不同的数据。我一次最多可以执行 300 个并发 api 调用。

这样做似乎并不快，因为这只是在等待 repl，我想知道如何使这个功能更快？

from multiprocessing.pool import ThreadPool
import requests

pool = ThreadPool(processes=500)
variables = VariableBaseDict
for item in variables:
    async_result = pool.apply_async(requests.get(url.json()))
    result = async_result.get()
    #do stuff with result

最佳答案

您当前的代码实际上并未将任何实际工作转移给工作线程。您正在主线程中调用 requests.get(url.json()) ，然后将返回的对象传递给 pool.apply_async 。您应该改为执行 pool.apply_async(requests.get, (url.json(),)) 。也就是说，即使您纠正了这个问题，您也会立即等待调用的回复，这意味着您实际上永远不会同时运行任何调用。您将一个项目转移到一个线程，等待它完成，然后等待下一个项目。

您需要:

修复了在主线程中意外调用 requests.get(...) 的问题。
要么使用pool.map将工作列表并发分配给工作线程，要么继续使用pool.apply_async，但不要立即调用 async_result.get()，将所有 async_result 对象存储在列表中，迭代变量后，迭代 async_result 列出每个项目并调用 .get()。这样您实际上最终会同时运行所有调用。

因此，如果您使用 apply_async，您会执行以下操作:

async_results = [pool.apply_async(requests.get, (build_url(item),)) for item in variables]
for ar in async_results:
    result = ar.get()
    # do stuff with result

使用pool.map，它将是:

  results = pool.map(requests.get, [build_url(item) for item in variables])

关于python - 如何让我的线程池更好地处理请求，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56366864/

python - 如何让我的线程池更好地处理请求

上一篇：python - pandas:获取每隔一行的差异

下一篇：python - 在django中使用for循环迭代另一个url