python - 使用 boto3 从 S3 下载大文本文件

标签 python amazon-s3 boto3

我公司的分析团队每天都会在 S3 中上传一个 CSV 文件,该文件的大小通常为 300MB,但还在不断增加。我必须实现的 lambda 函数需要读取此文件并处理每一行。

我对此主要担心的是,文件的巨大尺寸可能会导致我的 lambda 执行上下文出现内存问题。 boto3 有什么办法可以从 S3 以流的形式下载该文件并在下载时读取它吗?如果不是,我应该采取哪种方法来解决这种情况?

提前致谢。

最佳答案

跟进我的问题,我刚刚发现智能打开:https://github.com/RaRe-Technologies/smart_open/tree/master/smart_open ,它以一种非常优雅的方式解决了我的问题。

关于python - 使用 boto3 从 S3 下载大文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51085954/

相关文章:

apache-spark - Spark 1.6.1 S3 MultiObjectDeleteException

python - 使用 python 请求模块在 AWS lambda 中进行 API post 调用时遇到问题

python - 我们如何使用 Boto3 列出 aws 参数存储中的所有参数? boto3文档中没有ssm.list_parameters?

ubuntu - 如何使用 Boto3 修复 DynamoDB 的 "NoCredentialsError"

python - Flask-上传权限被拒绝

java - 找不到 awssdk_config_override.json 文件 - 异常 AWSSDK

python - Paramiko:模块对象没有属性错误 'SSHClient'

amazon-web-services - 是否可以使用实例模板中的 run_instances ?

python - 以日期或其他类型值的特定交替间隔在绘图上设置背景颜色

python - 如何在Android中保持kivy服务在后台运行(切换到其他应用程序或锁定屏幕时服务仍然运行)?