python - 高效地将 s3 文件处理到 Postgres 中

标签 python postgresql amazon-web-services amazon-s3 amazon-rds

我目前正在使用 AWS S3 作为许多 json 文件的存储(200 万个并且还在增加)。 我想将所有这些文件放入 Postgres RDS 的数据库中。

我目前正在使用 AWS Lambda 来解析文件,它比在本地运行要慢得多。另外,在 Python 中运行脚本和安装外部模块的工作对于 lambda 来说是相当糟糕的。

是否有一种更快、更有效的方法来处理 S3 文件、解析它们并将它们放入 Postgres 中,而无需下载它们?

它需要在每个新文件上运行(这就是我选择 lambda 的原因),并且需要将其划分为几个表,因此它不仅仅是按原样放置文件(脚本已经获取文件并将其解析为正确的表)。

最佳答案

您可以使用 aws 胶水。但这会让您为每次作业运行付出代价。

关于python - 高效地将 s3 文件处理到 Postgres 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59485716/

相关文章:

python - 如何为深度学习训练数据集创建真实边界框?

ruby - 使用 image_tag、activeStorage 和 "TypeError (no implicit conversion of nil into String)"加载图像时 Rails "has_many_attached"

python - 如何使用 SQLAlchemy 在 Postgres 中执行 date_trunc 查询

ruby-on-rails - Ruby on Rails - AWS-SDK 配置文件

python - 如何在 python 脚本中使用 awscli?

javascript - 在 Bokeh 交互式线图中从 ColumnDataSource 选择行

python - Pandas DataFrame 查询 Python

amazon-web-services - 函数参数中的 Golang 函数数组

python - 按计数对 Pandas 多索引进行排序?

node.js - 如何使用 Sequelize 更新我的购物车数据库中的商品数量(如果它已经存在)或如果不存在则创建它?