python - 在Python中将S3数据并行/异步下载到EC2中？

我在 S3 中存储了需要分析的大型数据文件。每批处理由约 50 个文件组成，每个文件都可以独立分析。

我想设置将 S3 数据并行下载到 EC2 实例中，并设置触发器来启动对每个下载文件的分析过程。

是否有任何库可以处理异步下载，在完整模型上触发？

如果没有，我正在考虑使用 pyprocessing 设置多个下载进程，每个进程都会下载并分析单个文件。这听起来合理还是有更好的选择？

最佳答案

为了回答我自己的问题，我最终对 Amazon S3 python 库进行了简单的修改，让您可以分块下载文件或逐行读取文件。 Available here .

关于python - 在Python中将S3数据并行/异步下载到EC2中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/538875/