我在 S3 中存储了需要分析的大型数据文件。每批处理由约 50 个文件组成,每个文件都可以独立分析。
我想设置将 S3 数据并行下载到 EC2 实例中,并设置触发器来启动对每个下载文件的分析过程。
是否有任何库可以处理异步下载,在完整模型上触发?
如果没有,我正在考虑使用 pyprocessing 设置多个下载进程,每个进程都会下载并分析单个文件。这听起来合理还是有更好的选择?
最佳答案
为了回答我自己的问题,我最终对 Amazon S3 python 库进行了简单的修改,让您可以分块下载文件或逐行读取文件。 Available here .
关于python - 在Python中将S3数据并行/异步下载到EC2中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/538875/