python - 高效地将 s3 文件处理到 Postgres 中

我目前正在使用 AWS S3 作为许多 json 文件的存储(200 万个并且还在增加)。我想将所有这些文件放入 Postgres RDS 的数据库中。

我目前正在使用 AWS Lambda 来解析文件，它比在本地运行要慢得多。另外，在 Python 中运行脚本和安装外部模块的工作对于 lambda 来说是相当糟糕的。

是否有一种更快、更有效的方法来处理 S3 文件、解析它们并将它们放入 Postgres 中，而无需下载它们？

它需要在每个新文件上运行(这就是我选择 lambda 的原因)，并且需要将其划分为几个表，因此它不仅仅是按原样放置文件(脚本已经获取文件并将其解析为正确的表)。

最佳答案

您可以使用 aws 胶水。但这会让您为每次作业运行付出代价。

关于python - 高效地将 s3 文件处理到 Postgres 中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59485716/

相关文章：

python - 如何为深度学习训练数据集创建真实边界框？